19 de mayo de 2025

Técnicas esenciales para anonimizar archivos de Excel antes de su análisis con IA

Anonimizar no es lo mismo que seudonimizar

Aunque suenan parecido, no son sinónimos. La anonimización implica transformar los datos personales de modo que no se pueda identificar a nadie, ni siquiera con información adicional. Es irreversible. En cambio, la seudonimización sustituye los datos sensibles por seudónimos, y es reversible si se tiene la clave de correspondencia. Por eso, aunque menos segura, la seudonimización permite mantener cierta flexibilidad en entornos donde pueda ser necesario identificar a alguien posteriormente.

¿Por qué es tan importante para la inteligencia artificial?

Los modelos de IA necesitan muchos datos para aprender y tomar decisiones. Pero esos datos deben estar protegidos si contienen información personal. La anonimización previa al análisis no solo evita filtraciones, sino que también garantiza el cumplimiento del Reglamento General de Protección de Datos (GDPR) y otras leyes similares. Además, fortalece la reputación de la organización y genera confianza en los usuarios.

Técnicas básicas para comenzar con buen pie

Sustitución por códigos alfanuméricos

Un método sencillo y efectivo es cambiar nombres u otros identificadores por códigos como «NOM001», «NOM002″…

  1. Duplica la columna con los nombres.
  2. Elimina duplicados.
  3. Asigna los códigos.
  4. Sustituye los nombres originales por esos códigos en todo el archivo.

De esta forma, puedes seguir analizando relaciones entre los datos sin revelar a quién pertenecen.

Enmascaramiento con formatos personalizados

No siempre es necesario modificar los datos: a veces basta con ocultarlos visualmente. Por ejemplo:

  • Para fechas, usa el formato 00/00/0000 para que «28022023» se vea como «28/02/2023».
  • Para horas, el formato #:00 transforma «450» en «4:50».

Esto es útil si necesitas conservar la información pero reducir su legibilidad directa.

Funciones para documentos identificativos

La Agencia Española de Protección de Datos (AEPD) ofrece orientaciones específicas para tratar NIF, NIE y pasaportes. Una buena práctica es crear una función personalizada en Excel que:

  • Elimine guiones y caracteres innecesarios.
  • Complete con ceros por la izquierda.
  • Aplique formatos según el tipo de documento.

Técnicas avanzadas para grandes volúmenes de datos

Pseudonimización sistemática

Ideal para bases de datos masivas. Con funciones como ALEATORIO() y CONCATENAR(), puedes generar códigos aleatorios consistentes. De esta forma, se conservan las relaciones internas de los datos sin revelar identidades reales.

Es como cambiar los nombres de los personajes en una novela sin alterar la trama: el relato sigue teniendo sentido, pero nadie sabe quién es quién.

Privacidad diferencial

Este método introduce «ruido» aleatorio en los datos, sobre todo numéricos, para que los resultados agregados sigan siendo útiles pero las entradas individuales no puedan ser rastreadas.

Por ejemplo, si un dato es «87», podrías sumarle o restarle un pequeño valor aleatorio controlado. La média general seguirá siendo representativa, pero ningún dato reflejará exactamente la realidad individual.

Combinación de técnicas: el enfoque más seguro

No hay una receta única. Lo más seguro es combinar varios métodos:

  • Seudonimización para los identificadores.
  • Enmascaramiento para datos parcialmente visibles.
  • Agregación de datos cuando se pueden analizar en conjunto (promedios, rangos).
  • Eliminación de variables innecesarias que no aportan valor al análisis.

Cuida los detalles que marcan la diferencia

Mantén la coherencia de los datos

Cuando cambies un nombre por un código, asegúrate de que se mantenga igual en todo el documento. Esto es vital para conservar relaciones significativas y patrones que la IA necesita para aprender.

Preserva la estructura temporal

Si trabajas con fechas, puede que no necesites el día exacto, pero sí el orden o el intervalo entre eventos. Puedes convertir fechas como «12/03/2023» a «Semana 11» o «Q1-2023».

Evalúa el impacto en la IA

Haz pruebas antes y después de la anonimización para ver si los modelos de IA siguen funcionando correctamente. Esto ayuda a ajustar los parámetros sin perder valor analítico.

Herramientas para automatizar y escalar el proceso

Power Query y VBA

Cuando los archivos son grandes o se actualizan frecuentemente, Excel puede quedarse corto. Con Power Query puedes procesar por lotes, y con macros de VBA automatizas tareas repetitivas como la generación de códigos.

Anonimización en tiempo real

Si trabajas en entornos de Big Data o flujos de datos continuos, puedes incorporar lógicas de anonimización que funcionen mientras se reciben los datos, para que nunca se almacenen de forma identificable.

Cumplimiento legal y buenas prácticas

Respeta las normativas

El GDPR y otras leyes exigen que la anonimización sea efectiva y documentada. Guarda registros del proceso seguido, y asegúrate de que no sea posible reidentificar a las personas.

Complementa con controles de acceso

No basta con anonimizar. Limita quién puede acceder a los archivos, protege con contraseñas y, si es necesario, usa cifrado adicional.

Supervisa y audita

Establece políticas de revisión para detectar intentos de reidentificación. Una buena práctica es tener auditorías periódicas que verifiquen la eficacia de las técnicas aplicadas.


Dominar las técnicas de anonimización en Excel no solo protege la privacidad, sino que permite sacar provecho a la inteligencia artificial de forma responsable y legal. Con una combinación adecuada de estrategias básicas y avanzadas, cualquier organización puede transformar archivos confidenciales en recursos valiosos sin poner en riesgo a nadie.




☞ El artículo completo original de Natalia Polo lo puedes ver aquí

No hay comentarios.:

Publicar un comentario