SOCIEDAD

La IA ya puede “desanonimizar” cuentas: tu alt de Reddit podría no estar a salvo

Publicar bajo pseudónimo no equivalía a ser invisible; pero, hasta ahora, el coste de “atar cabos” a gran escala era una barrera real. Un estudio reciente sugiere que esa barrera se está erosionando: con agentes de IA capaces de rastrear y razonar sobre información pública, reidentificar cuentas puede ser más rápido, barato y escalable.

La investigación —firmada por autores vinculados a ETH Zurich, Anthropic y el programa Machine Learning Alignment and Theory Scholars (MATS)— no está todavía revisada por pares en el circuito tradicional, pero ya circula como prepublicación y en formato de workshop. En paralelo, ha reactivado un debate incómodo: qué significa hoy “anonimato” cuando la automatización convierte lo artesanal en industrial.

QUÉ HAN PROBADO ETH ZURICH Y ANTHROPIC

El trabajo, titulado Large-scale online deanonymization with LLMs, parte de una idea sencilla: gran parte de lo que nos delata está en el texto (hábitos, intereses, referencias biográficas, detalles aparentemente inocuos). Con modelos de lenguaje y herramientas de búsqueda, esas pistas pueden reunirse y compararse de manera sistemática.

Los autores insisten en una cautela importante: no evalúan su método sobre cuentas “realmente” pseudónimas de Hacker News o Reddit, por razones éticas. En su lugar, construyen escenarios con “verdad terreno” verificable (perfiles que en algún punto enlazan a una identidad, y luego se “desidentifican” para ver si el sistema recupera el vínculo).

Ese matiz no hace desaparecer el riesgo, pero ayuda a entender el alcance: no se trata de una “máquina infalible” que revela a cualquiera, sino de una demostración de capacidad en condiciones controladas —y, sobre todo, de que el proceso puede automatizarse de punta a punta.

LOS NÚMEROS QUE EXPLICAN EL SALTO DE ESCALA

En un experimento “abierto” (con búsqueda en la web), el sistema logra identificar 226 de 338 objetivos (un 67%) en un conjunto de cuentas de Hacker News que habían enlazado un perfil de LinkedIn, manteniendo una precisión reportada del 90% (con abstenciones cuando no hay suficiente seguridad).

En la parte más “industrial” —un emparejamiento entre bases de datos— el estudio describe un escenario con 987 perfiles de LinkedIn vinculados a 995 cuentas de Hacker News, extraídos de un pool de ~89.000 usuarios. En ese marco, las técnicas basadas en modelos de lenguaje superan con claridad una referencia clásica inspirada en ataques previos de desanonimización: la comparación “no LLM” se queda prácticamente en cero en las métricas más exigentes, mientras el enfoque con LLM mantiene resultados relevantes incluso con muchos candidatos.

Para el caso Reddit, el trabajo incluye pruebas con usuarios “identificables” en comunidades académicas y de empleo: los resultados varían, con aciertos que van desde 13 de 25 (52%) en un conjunto hasta 9 de 36 (25%) en otro, dependiendo del tipo de contenido y de cuán distintivas sean las pistas tras eliminar identificadores directos.

Y hay una demostración especialmente intuitiva para cualquiera que haya usado Reddit: en un dataset de cine (subreddits como r/movies y comunidades más nicho), la capacidad de enlazar perfiles crece con la “huella” de gustos compartidos. A 90% de precisión, la recuperación pasa de 3,1% cuando solo hay una película en común a 48,1% cuando hay diez o más coincidencias.

POR QUÉ IMPORTA: EL CAMBIO ES ECONÓMICO, NO “MÁGICO”

Uno de los mensajes más repetidos por los autores y por expertos consultados en la cobertura es que la IA no inventa pistas nuevas: acelera y automatiza lo que ya podía hacer una investigación humana paciente. “Every single thing the LLM found… could be found by a human investigator”, resumía a The Verge Daniel Paleka, uno de los firmantes.

La diferencia, por tanto, es de incentivos. Según la misma cobertura, el equipo calcula que su experimento costó menos de 2.000 dólares, con un coste aproximado de 1 a 4 dólares por perfil. Si esa cifra se sostiene en replicaciones independientes, el umbral para abusos —desde acoso y doxing hasta estafas hiperpersonalizadas— se vuelve más bajo.

Además, el propio trabajo advierte de un efecto colateral: la evaluación con “verdad terreno” puede sobreestimar la tasa de éxito (porque esos perfiles son, por definición, más “enlazables” que los de usuarios muy disciplinados con su anonimato). Pero incluso así, el argumento central permanece: cuando el coste cae, el volumen de intentos puede dispararse.

QUIÉN ESTÁ MÁS EXPUESTO (Y QUIÉN PUEDE RESISTIR MEJOR)

El riesgo no se reparte por igual. En general, están más expuestos quienes:

  • Mezclan vida profesional y personal (mismos temas, mismas referencias, mismas expresiones).

  • Dejan “miguitas” biográficas a lo largo del tiempo: ciudades, centros, proyectos, rutinas.

  • Publican contenido suficientemente específico como para ser buscable y cruzable con huellas públicas (papers, portfolios, entrevistas, conferencias).

Esto afecta de forma particular a periodistas, activistas y disidentes, para quienes el pseudónimo no es un capricho, sino una medida de seguridad. El estudio —y su difusión mediática— vuelve a colocar el foco en un hecho incómodo: en internet, el pasado no caduca.

Dicho esto, “anonimato” no es un interruptor. Los mismos autores señalan que hay prácticas básicas que siguen elevando mucho la dificultad: separar identidades, reducir detalles personales y evitar patrones que faciliten el enlace entre cuentas.

LA PISTA LEGAL: CUANDO LO “SEUDÓNIMO” SIGUE SIENDO IDENTIFICABLE

En Europa, este debate conecta con un principio jurídico clave: si alguien es identificable con “medios razonablemente probables”, seguimos hablando de datos personales. La Agencia Española de Protección de Datos (AEPD) lleva años subrayando el riesgo residual de reidentificación incluso tras procesos de anonimización, y distingue con claridad entre anonimizar y seudonimizar (esta última no elimina la posibilidad de volver a atribuir datos a una persona).

El EDPB (el organismo europeo que coordina a las autoridades de protección de datos) también insiste en que la seudonimización requiere medidas técnicas y organizativas adicionales para evitar atribuciones indebidas, precisamente porque el enlace puede ocurrir si existe información auxiliar.

La novedad que plantea la investigación de ETH Zurich y Anthropic es que, si la automatización reduce drásticamente tiempo y coste, lo que ayer parecía “poco probable” puede convertirse en “razonablemente probable”. Y ese desplazamiento tiene consecuencias prácticas (y regulatorias) para plataformas, empresas y administraciones

J. Fernández-Ortega

Foto-Periodista especializado en politica, cultura y tendencias. Empezó a colaborar con Mallorcadiario.com en 2019. Director de la web de cultura y ocio lasiestamagazine.com. Vivo cerca del paraíso, escribo bajo la mirada de un objetivo, juego cabalgando sobre la luz, viajo para nutrirme de colores y siempre con poco equipaje.

Entradas recientes

Bicipalma se expande por el litoral con estaciones en Paseo Marítimo y Playa de Palma

En total, se instalarán 18 nuevas estaciones: cinco en el Paseo Marítimo y 13 a…

23 minutos hace

Ignacio Flores, nuevo director del Institut d'Estudis Baleàrics

El Consell de Govern se ha dado por enterado del nombramiento de Ignacio Flores Sancenón…

1 hora hace

Los mallorquines Go Cactus publican su segundo álbum

El lanzamiento llega acompañado de una extensa gira que ya ha pasado por varias ciudades españolas, colgando…

2 horas hace

Exceso de velocidad y alcohol: así fue el accidente en las carreras ilegales de Can Valero

Las carreras ilegales disueltas el 2 de marzo provocaron un accidente múltiple por exceso de…

2 horas hace

Tromba de agua en el centro de Palma

Una tromba de agua ha sorprendido este viernes en el centro de Palma, obligando a…

2 horas hace

La Policía Local de Santanyí incorpora nuevos equipos de respiración para intervenir en emergencias

El Ayuntamiento de Santanyí ha mejorado la seguridad de su Policía Local con la incorporación…

3 horas hace

Esta web usa cookies.