CK Geek: Cloudflare vs Perplexity: una nueva batalla por el respeto a los datos en la era de la IA

La tensión entre creadores de contenido y desarrolladores de inteligencia artificial sigue creciendo. Esta vez, Cloudflare ha señalado directamente a Perplexity, una conocida empresa de IA generativa, por ignorar las reglas básicas de convivencia digital: el respeto por el archivo robots.txt.

¿Qué está pasando entre Cloudflare y Perplexity?

Cloudflare, empresa encargada de ofrecer servicios de seguridad y rendimiento en la web, ha publicado un informe en el que acusa a Perplexity de extraer contenido (scraping) de sitios web que habían optado por bloquear el acceso a rastreadores de IA.

En el corazón del conflicto está el uso del archivo robots.txt, un pequeño fichero que le indica a los bots automáticos qué partes de una web pueden o no pueden visitar. Es algo así como colgar un cartel de «privado» en la puerta de una habitación. Si un bot respeta las reglas, simplemente no entra. Pero, según Cloudflare, Perplexity ha decidido no solo entrar, sino hacerlo sin avisar y disfrazado.

Rastreos encubiertos: el método de Perplexity

El informe detalla que Perplexity habría estado cambiando su identificación de bot (user-agent) para hacerse pasar por navegadores comunes, como Google Chrome en macOS, y así evitar ser detectado por los sistemas de seguridad. Además, habría usado direcciones IP no declaradas y ajenas a su rango oficial para seguir accediendo a contenido bloqueado, rotando estas IPs cada vez que se encontraba con un bloqueo.

Esta estrategia, conocida como «stealth crawling» o rastreo sigiloso, no es nueva, pero resulta especialmente preocupante en el contexto actual, donde muchas empresas han comenzado a proteger activamente sus contenidos del uso no autorizado por parte de sistemas de IA.

La reacción de Cloudflare

Cloudflare no se ha quedado de brazos cruzados. Como respuesta, ha eliminado a Perplexity de su lista de bots verificados y ha implementado nuevas medidas para detectar y bloquear estos rastreos sigilosos.

El mensaje de la compañía es claro: si una IA desea acceder a contenido protegido, debe hacerlo respetando las normas establecidas. No basta con alegar buenas intenciones si los métodos empleados vulneran la confianza de los administradores web.

La postura de Perplexity

Perplexity, por su parte, ha respondido a través de un portavoz, negando que el bot mostrado en las evidencias pertenezca a ellos. Sin embargo, esta no es la primera vez que se la acusa de apropiarse de contenido sin permiso, lo que ha generado una creciente preocupación entre creadores y medios digitales.

Esta práctica alimenta el debate sobre si los modelos de IA están siendo entrenados de forma justa o si se están aprovechando del trabajo de terceros sin retribución ni reconocimiento.

Implicaciones para el futuro del contenido digital

Este incidente podría tener consecuencias que van más allá del daño reputacional. Por ejemplo, se especula que Samsung podría reconsiderar incluir Perplexity en sus próximos dispositivos, como el Galaxy S26, ante el riesgo de verse implicada en una controversia sobre derechos digitales.

Y es que la confianza se ha vuelto un recurso escaso en la era de la inteligencia artificial. Muchos sitios web han comenzado a usar herramientas más sofisticadas para proteger su contenido, y los usuarios están cada vez más atentos a cómo se utilizan sus datos y los medios que consumen.

Un llamado a la transparencia

Este conflicto es solo un capítulo más en la compleja relación entre tecnologías emergentes y derechos digitales. Mientras los modelos de IA se vuelven más potentes y extendidos, también se hace urgente establecer reglas claras, justas y transparentes sobre qué datos pueden usarse y bajo qué condiciones.

La situación actual recuerda a cuando alguien copia tu trabajo escolar y lo presenta como propio. Aunque pueda parecer un halago al esfuerzo original, si no se pide permiso ni se da crédito, se convierte en una falta grave.

Las compañías que desarrollan IA tienen en sus manos una enorme responsabilidad: construir sus modelos sin dañar la confianza de los usuarios, ni apropiarse del trabajo ajeno sin consentimiento.

La noticia Cloudflare vs Perplexity: una nueva batalla por el respeto a los datos en la era de la IA fue publicada originalmente en Wwwhatsnew.com por Natalia Polo.

☞ El artículo completo original de Natalia Polo lo puedes ver aquí

7 de agosto de 2025

Cloudflare vs Perplexity: una nueva batalla por el respeto a los datos en la era de la IA