29 de enero de 2025

OpenAI ha utilizado con descaro millones de datos de Internet para entrenar a su IA. Ahora acusa a DeepSeek de robarles a ellos

OpenAI ha utilizado con descaro millones de datos de Internet para entrenar a su IA. Ahora acusa a DeepSeek de robarles a ellos

En el ámbito de la inteligencia artificial, la destilación es una estrategia utilizada para optimizar modelos. Consiste en entrenar un modelo más pequeño (con menos parámetros, y en líneas generales menos capaz), a partir de la información de un modelo más grande y avanzado. De este modo, se logra un sistema más eficiente y rápido sin comprometer significativamente su rendimiento. Portavoces de OpenAI han especificado al medio Financial Times que DeepSeek habría utilizado esta técnica con los modelos de OpenAI.

Quién roba a quién...

DeepSeek ha empleado esta técnica, junto con otras como el aprendizaje por refuerzo para alcanzar su alto nivel de desempeño, o su arquitectura 'Mixture of Experts', la cual le permite al modelo utilizar solamente un pequeño subset de sus componentes (‘experts’) para cada tarea, en vez de hacer trabajar a todo el sistema al completo, reduciendo significativamente los costes energéticos y potencia de computación.

El problema radica en que OpenAI prohíbe expresamente el uso de sus modelos con fines de destilación. Sus términos de servicio establecen que no se puede copiar sus servicios ni emplear las respuestas generadas por sus modelos para desarrollar sistemas que compitan con ellos. Según información publicada por Bloomberg, OpenAI y Microsoft ya investigaron en el pasado a DeepSeek por presuntas violaciones a estas normas. Se sospecha que los desarrolladores de DeepSeek utilizaron la API de OpenAI para realizar destilación de modelos, lo que habría infringido estas condiciones.

David Sacks, figura destacada en el ámbito de la inteligencia artificial dentro del equipo de Donald Trump, afirmó que hay pruebas de que DeepSeek ha empleado datos de OpenAI. Desde la empresa liderada por Sam Altman aseguran que varias compañías, especialmente en China, intentan constantemente replicar modelos de las principales firmas de IA de Estados Unidos.

No obstante, esta acusación genera un debate sobre la doble moral en la industria. OpenAI ha sido señalada por utilizar grandes volúmenes de datos de internet sin autorización, incluyendo la transcripción de millones de horas de contenido de YouTube para entrenar GPT-4. La investigadora Timnit Gebru, conocida por su enfrentamiento con Google en temas éticos de IA, ha criticado a OpenAI por exigir respeto a sus propias reglas cuando, a su juicio, no ha respetado las de otros.

El conflicto no es exclusivo de OpenAI y DeepSeek. Varias empresas de inteligencia artificial han sido acusadas de entrenar modelos con contenido público sin consentimiento de los creadores. Muchas de ellas justifican esta práctica bajo el concepto de "uso justo", pero la línea entre lo permitido y lo ilícito sigue siendo difusa. Esto ha generado un aluvión de demandas por posibles infracciones de derechos de autor, lo que pone en evidencia la necesidad de una regulación clara y equitativa en el sector.

Imagen de portada | DeepSeek, Xataka con Mockuuups Studio

En Genbeta | El CEO de OpenAI por fin se pronuncia sobre DeepSeek: “Lanzaremos modelos mucho mejores”

-
La noticia OpenAI ha utilizado con descaro millones de datos de Internet para entrenar a su IA. Ahora acusa a DeepSeek de robarles a ellos fue publicada originalmente en Genbeta por Antonio Vallejo .



☞ El artículo completo original de Antonio Vallejo lo puedes ver aquí

No hay comentarios.:

Publicar un comentario