Por qué el nuevo modelo de IA de DeepSeek piensa que es ChatGPT

Earlier this week, DeepSeek, un laboratorio de IA chino bien financiado, lanzó un modelo de IA 'abierto' que supera a muchos rivales en pruebas populares. El modelo, DeepSeek V3, es grande pero eficiente, manejando tareas basadas en texto como la codificación y la redacción de ensayos con facilidad.

También parece pensar que es ChatGPT.

Las publicaciones en X y las pruebas de TechCrunch muestran que DeepSeek V3 se identifica como ChatGPT, la plataforma de chatbot con alimentación de IA de OpenAI. Al pedirle que se explique, DeepSeek V3 insiste en que es una versión del modelo GPT-4 de OpenAI lanzado en 2023.

Esto se reproduce actualmente. En 5 de 8 generaciones, DeepSeekV3 afirma ser ChatGPT (v4), mientras que se identifica como DeepSeekV3 solo 3 veces.

Te da una idea aproximada de la distribución de sus datos de entrenamiento. https://t.co/Zk1KUppBQM pic.twitter.com/ptIByn0lcv

- Lucas Beyer (bl16) (@giffmana) 27 de diciembre de 2024

Las ilusiones son profundas. Si le haces una pregunta a DeepSeek V3 sobre la API de DeepSeek, te dará instrucciones sobre cómo usar la API de OpenAI. Incluso DeepSeek V3 cuenta algunos de los mismos chistes que GPT-4, hasta las líneas de remate.

Entonces, ¿qué está pasando? Los modelos como ChatGPT y DeepSeek V3 son sistemas estadísticos. Entrenados en miles de millones de ejemplos, aprenden patrones en esos ejemplos para hacer predicciones, como por ejemplo, cómo “a quien” en un correo electrónico suele preceder a “puede interesarle”.

DeepSeek no ha revelado mucho sobre la fuente de datos de entrenamiento de DeepSeek V3. Pero no faltan conjuntos de datos públicos que contienen texto generado por GPT-4 a través de ChatGPT. Si DeepSeek V3 fue entrenado en estos, el modelo podría haber memorizado algunas de las salidas de GPT-4 y ahora las está regurgitando textualmente.

“Obviamente, el modelo ve respuestas directas de ChatGPT en algún momento, pero no está claro dónde está eso”, dijo Mike Cook, investigador de posdoctorado en el King's College de Londres especializado en IA, a TechCrunch. “Podría ser ‘accidental’... pero desafortunadamente, hemos visto casos de personas que entrenan directamente sus modelos en las salidas de otros modelos para intentar aprovechar su conocimiento”.

Cook señaló que la práctica de entrenar modelos en las salidas de sistemas de IA rivales puede ser “muy mala” para la calidad del modelo, ya que puede llevar a alucinaciones y respuestas engañosas como las mencionadas anteriormente. “Como tomar una fotocopia de una fotocopia, perdemos cada vez más información y conexión con la realidad”, dijo Cook.

También podría ir en contra de los términos de servicio de esos sistemas.

Los términos de OpenAI prohíben a los usuarios de sus productos, incluidos los clientes de ChatGPT, utilizar las salidas para desarrollar modelos que compitan con los propios de OpenAI.

OpenAI y DeepSeek no respondieron de inmediato a las solicitudes de comentarios. Sin embargo, el CEO de OpenAI, Sam Altman, publicó lo que parecía ser un comentario sobre DeepSeek y otros competidores en X el viernes.

“Es (relativamente) fácil copiar algo que sabes que funciona. Es extremadamente difícil hacer algo nuevo, arriesgado y difícil cuando no sabes si funcionará”, escribió Altman.

Por supuesto, DeepSeek V3 está lejos de ser el primer modelo en identificarse erróneamente. Google's Gemini y otros a veces afirman ser modelos competidores. Por ejemplo, incitado en mandarín, Gemini dice que es el chatbot Wenxinyiyan de la empresa china Baidu.

Y eso se debe a que la web, de donde las empresas de IA obtienen la mayor parte de sus datos de entrenamiento, se está llenando de errores de IA. Las granjas de contenido están utilizando IA para crear cebo de clics. Los bots están invadiendo Reddit y X. Según una estimación, el 90% de la web podría ser generado por IA para 2026.

Esta “contaminación”, por así decirlo, ha hecho bastante difícil filtrar exhaustivamente las salidas de IA de los conjuntos de datos de entrenamiento.

Ciertamente es posible que DeepSeek haya entrenado a DeepSeek V3 directamente con texto generado por ChatGPT. Después de todo, una vez se acusó a Google de hacer lo mismo.

Heidy Khlaaf, científica jefa de IA en el Instituto AI Now, dijo que el ahorro de costos de “destilar” el conocimiento de un modelo existente puede ser atractivo para los desarrolladores, independientemente de los riesgos.

“Incluso con datos de Internet ahora llenos de salidas de IA, otros modelos que accidentalmente entrenan con salidas de ChatGPT o GPT-4 no necesariamente demostrarían salidas que recuerden a mensajes personalizados de OpenAI”, dijo Khlaaf. “Si es el caso de que DeepSeek llevó a cabo la destilación parcialmente usando modelos de OpenAI, no sería sorprendente”.

Más probable, sin embargo, es que una gran cantidad de datos de ChatGPT/GPT-4 se haya incorporado al conjunto de entrenamiento de DeepSeek V3. Eso significa que el modelo no puede ser confiable para autoidentificarse, por un lado. Pero lo que es más preocupante es la posibilidad de que DeepSeek V3, al absorber e iterar críticamente en las salidas de GPT-4, pueda exacerbar algunos de los prejuicios y defectos del modelo.


¡TechCrunch tiene un boletín centrado en IA! Regístrese aquí para recibirlo en su bandeja de entrada todos los miércoles.