Pelea de datos: el bueno, el feo y el malo

Víctor Almonacid

Publicado: 22/04/2026 • 05:05

En 1966, Sergio Leone explicó en poco menos de tres horas —y con Ennio Morricone marcando el pulso— algunos aspectos esenciales sobre la condición humana: ambición, traición, supervivencia y una idea muy particular de justicia. Tres pistoleros persiguen el mismo tesoro en un cementerio. Ninguno es completamente malvado. Ninguno es inocente. Pero uno de ellos, al menos, tiene un código.

Sesenta años después, el escenario ha cambiado. El polvo del desierto se ha sustituido por centros de datos, los revólveres por modelos matemáticos y el oro por algo todavía más valioso. Los datos. En el western contemporáneo de la inteligencia artificial, los protagonistas ya no llevan poncho. Llevan datasets. Sin embargo, como en la trama de Leone, vemos que no todos juegan limpio.

Este texto no habla de algoritmos malintencionados ni de máquinas con voluntad propia, sino de algo más incómodo y mucho menos tecnológico de lo que parece. Habla de los datos que alimentan la IA, especialmente cuando esta se utiliza en el ámbito público. Porque si algo hemos aprendido en los últimos años es que el llamado “sesgo algorítmico” casi nunca es algorítmico. Pero sí es sesgo. Un sesgo histórico, social y humano. Y, sobre todo, está en los datos. Pero no todos los datos son iguales…

El malo: el dato contaminado

El malo no engaña a nadie. Se reconoce a simple vista. Es el dato sesgado en bruto: incompleto, desactualizado, discriminatorio o directamente falso.

Es el historial de contratación laboral que refleja décadas en las que las mujeres no accedían a determinados puestos. El dato tributario que infrarrepresenta claramente la economía sumergida. El padrón municipal sin depurar donde aparecen personas fallecidas que siguen existiendo administrativamente y ciudadanos vivos que, para el sistema, no existen.

El dato malo no es maligno por naturaleza. Es un reflejo fiel de una sociedad que tampoco era especialmente justa cuando lo produjo. El problema aparece cuando decidimos entrenar sistemas de IA con ese material sin depurarlo ni cuestionarlo. En ese momento, la injusticia se convierte en estadística y la discriminación pasa a presentarse como neutralidad matemática.

Durante años hemos hablado de “sesgo algorítmico” como si el código tuviera (mala) intención. Como si el software tomara decisiones morales y, en ocasiones, mortales. Pero el algoritmo no discrimina, reproduce. Hace exactamente lo que se le pide, con una precisión quirúrgica y sin el menor remordimiento.

Un sistema de selección de personal entrenado con datos históricos sesgados no elige mal, sino que recomienda lo que siempre se hizo. La culpa no es del pistolero; es de quien cargó la pistola con esa munición.

El feo: el dato sintético

El feo no es bueno, pero nunca es del todo malo, aunque tampoco es plenamente fiable. Es ingenioso, oportunista y capaz de salvarte o traicionarte según sople el viento.

Los datos sintéticos funcionan así. Son conjuntos de datos artificiales que imitan las propiedades estadísticas de los datos reales sin exponer información personal identificable. No son reales, pero se comportan como si lo fueran. No son mentira, pero tampoco son la verdad extraída directamente del mundo.

Sus ventajas son evidentes: permiten entrenar modelos sin vulnerar la protección de datos, compartir información sensible entre administraciones, probar políticas públicas antes de desplegarlas y experimentar sin poner a ciudadanos reales en riesgo. No es casualidad que las instituciones europeas los señalen como una herramienta clave para la formulación de políticas públicas basadas en evidencia.

Pero aquí llega el giro de guion: el dato sintético hereda los sesgos del dato original. Y, en muchos casos, los amplifica. Esa es la trampa del dato feo.

Los modelos generativos aprenden la distribución estadística del mundo que se les muestra. Si ese mundo estaba desequilibrado, la copia lo estará también. Con un agravante importante, porque ahora el resultado viene envuelto en una pátina de neutralidad técnica que lo hace aún más difícil de cuestionar.

Un dataset sintético mal calibrado puede convertirse en el malo con peor cara. No por mala fe, sino por exceso de confianza. Por eso el dato sintético exige auditoría antes, durante y después de su generación. Limpiar el origen, incorporar criterios de equidad en el proceso y medir sistemáticamente el resultado. Sin ese trabajo, el feo deja de ser una oportunidad y se convierte en una coartada.

El factor humano. La equidad no es un parámetro técnico

Aquí aparece uno de los errores más frecuentes; creer que la equidad es un problema puramente técnico. No lo es. O, al menos, no solo es esto.

Decidir qué grupos deben estar equilibradamente representados, qué distribución es la justa para una política pública concreta o qué implica realmente corregir deliberadamente desigualdades históricas, pasa por la toma de decisiones éticas y políticas, por supuesto humanas. La tecnología puede ejecutar esas decisiones con precisión, sobre todo si se incorpora la ética en el diseño. Pero no puede tomarlas en nuestro lugar.

En la Administración pública, esto no es una cuestión teórica sino jurídica. Los sistemas de IA de alto riesgo están obligados a documentar cómo se han tomado las decisiones sobre los datos y quién las ha tomado. No basta con decir que se han usado datos sintéticos o técnicas avanzadas. Hay que explicar el criterio. Y asumir la responsabilidad. La explicabilidad algorítmica es la nueva transparencia.

El bueno: el dato gobernado

El bueno de la película tampoco es un ángel. Sin embargo, tiene algo de lo que los otros carecen: un código, que no es poco.

El dato bueno no es perfecto, pero es el mejor posible en el salvaje oeste. Es el dato que alguien ha decidido cuidar. Verificado en origen, documentado, actualizado, gobernado con criterios claros de calidad, interoperabilidad y legalidad. Un dato sometido al RGPD, al Reglamento de IA y, sobre todo, al sentido común.

Gobernar el dato no resulta especialmente glamuroso. No genera titulares ni conferencias multitudinarias. Nadie aplaude al responsable del gobierno del dato de un ayuntamiento mediano. No vende, pero sin ese trabajo silencioso no hay IA justa posible. Solo automatización de sesgos y errores históricos.

El tesoro falso: los ciudadanos sintéticos

Después de los datos sintéticos, el siguiente paso era inevitable: los ciudadanos sintéticos. Que no se malinterprete el concepto. Se trata de agentes computacionales que simulan comportamientos, valores y reacciones de poblaciones reales para evaluar políticas públicas antes de aplicarlas.

Las ventajas son reales. Estos agentes son útiles para anticipar conflictos, reducir costes de consulta y diseñar políticas más robustas. Pero el riesgo también lo es. Un ciudadano sintético mal calibrado puede legitimar decisiones que la ciudadanía real rechazaría frontalmente. Una herramienta útil, pero sin alma ni verdaderos problemas.

El dilema es claro. Podemos usar la simulación para enriquecer la participación democrática real, intentando no contaminarla, o bien sustituir esa participación por un espejo cómodo que no siente ni protesta.

Un final sin spoiler

En la película, el bueno se queda con el oro. En el western de la ética algorítmica no hay finales tan limpios. Los datos malos, feos y buenos conviven en cualquier sistema real. La cuestión no es eliminarlos por completo, sino decidir cuál gobierna, y qué valor real aporta cada uno.

Porque en realidad, esta no era una pelea a tiros entre los tres tipos de datos. Es nuestra pelea con ellos. Y, en última instancia, con la justicia de los sistemas que estamos construyendo.

Los datos son el combustible de la inteligencia artificial. Si está contaminado, el motor más sofisticado producirá emisiones tóxicas. Y en lo público, eso no es solo un problema técnico. Es una cuestión de justicia.

Víctor Almonacid Lamelas.

datos

datos, tercera

Suscríbase aquí gratis a nuestro boletín diario. Síganos en X, Facebook, Instagram y TikTok.
Toda la actualidad de Mallorca en mallorcadiario.com.