
No hay necesidad de preocuparse de que sus conversaciones secretas con ChatGPT hayan sido obtenidas en una reciente brecha reportada en los sistemas de OpenAI. El hackeo en sí, aunque preocupante, parece haber sido superficial, pero nos recuerda que las empresas de IA se han convertido rápidamente en uno de los objetivos más jugosos para los hackers.
The New York Times informó más detalladamente sobre el hackeo después de que el ex empleado de OpenAI, Leopold Aschenbrenner, insinuara recientemente en un podcast. Él lo llamó un “importante incidente de seguridad”, pero fuentes anónimas de la empresa le dijeron al Times que el hacker sólo tuvo acceso a un foro de discusión de empleados. (Me puse en contacto con OpenAI para confirmación y comentarios.)
Ninguna violación de seguridad realmente debe ser tratada como trivial, y la escucha de las conversaciones internas de desarrollo de OpenAI ciertamente tiene su valor. Pero está lejos de ser un hacker que tenga acceso a sistemas internos, modelos en progreso, mapas de ruta secretos, y así sucesivamente.
Pero de todas formas nos debe asustar, y no necesariamente por la amenaza de que China u otros adversarios nos superen en la carrera armamentista de la IA. El simple hecho es que estas empresas de IA se han convertido en guardianes de una cantidad tremenda de datos muy valiosos.
Hablemos de tres tipos de datos que OpenAI y, en menor medida, otras empresas de IA han creado o tienen acceso: datos de entrenamiento de alta calidad, interacciones masivas de usuarios y datos de clientes.
Es incierto qué datos de entrenamiento exactamente tienen, porque las empresas son increíblemente secretas acerca de sus reservas. Pero es un error pensar que son sólo grandes montones de datos web raspados. Sí, utilizan raspadores web o conjuntos de datos como Pile, pero es una tarea gigantesca darle forma a esos datos crudos en algo que pueda ser utilizado para entrenar un modelo como GPT-4. Se requiere una enorme cantidad de horas de trabajo humano para hacer esto; sólo se puede automatizar parcialmente.
Los datos de entrenamiento de IA tienen una etiqueta de precio que sólo las Big Tech pueden pagar
Algunos ingenieros de aprendizaje automático han especulado que de todos los factores que intervienen en la creación de un modelo de lenguaje grande (o, tal vez, cualquier sistema basado en transformadores), el más importante es la calidad de los conjuntos de datos. Por eso un modelo entrenado en Twitter y Reddit nunca será tan elocuente como uno entrenado en cada trabajo publicado del último siglo. (Y probablemente por eso OpenAI supuestamente utilizó fuentes de dudosa legalidad como libros con derechos de autor en sus datos de entrenamiento, una práctica que dicen haber abandonado).
Así que los conjuntos de datos de entrenamiento que ha construido OpenAI son de tremendo valor para los competidores, desde otras empresas hasta estados adversarios hasta reguladores aquí en los EE.UU. ¿No les gustaría a la FTC o a los tribunales saber exactamente qué datos se estaban utilizando, y si OpenAI ha sido veraz al respecto?
Pero quizás aún más valiosa es la enorme cantidad de datos de usuarios de OpenAI, probablemente miles de millones de conversaciones con ChatGPT sobre cientos de miles de temas. Igual que los datos de búsqueda alguna vez fueron la clave para entender la psique colectiva de la web, ChatGPT tiene su dedo en el pulso de una población que puede no ser tan amplia como el universo de usuarios de Google, pero proporciona mucha más profundidad. (En caso de que no estuviera al tanto, a menos que opte por no hacerlo, sus conversaciones se están utilizando como datos de entrenamiento).
Estafas impulsadas por IA y qué puedes hacer al respecto
En el caso de Google, un aumento en las búsquedas de “acondicionadores de aire” te dice que el mercado se está calentando un poco. Pero esos usuarios no tienen luego toda una conversación sobre lo que quieren, cuánto dinero están dispuestos a gastar, cómo es su hogar, fabricantes que quieren evitar, y así sucesivamente. Sabes que esto es valioso porque Google está intentando convertir a sus usuarios para que proporcionen esta información sustituyendo las interacciones de IA por las búsquedas!
Imagina cuántas conversaciones han tenido las personas con ChatGPT, y cuán útil es esa información, no sólo para los desarrolladores de IA, sino también para los equipos de marketing, consultores, analistas… es una mina de oro.
La última categoría de datos es quizás de mayor valor en el mercado abierto: cómo los clientes están usando realmente la IA y los datos que ellos mismos han alimentado a los modelos.
Cientos de grandes empresas y un sinnúmero de empresas más pequeñas utilizan herramientas como OpenAI y las APIs de Anthropic para una gran variedad de tareas. Y para que un modelo de lenguaje les sea útil, generalmente debe ser afinado o de alguna otra manera tener acceso a sus propias bases de datos internas.
Esto podría ser algo tan prosaico como hojas de presupuesto antiguas o registros de personal (para hacerlos más fácilmente buscables, por ejemplo) o tan valioso como el código de un software no lanzado. Lo que hagan con las capacidades de la IA (y si realmente son útiles) es su negocio, pero el simple hecho es que el proveedor de IA tiene acceso privilegiado, al igual que cualquier otro producto SaaS lo hace.
Estos son secretos industriales, y las empresas de IA están de repente en el centro de muchos de ellos. La novedad de esta faceta de la industria conlleva un riesgo especial en el sentido de que los procesos de IA simplemente aún no están estandarizados o completamente comprendidos.
Hugging Face dice que detectó ‘acceso no autorizado’ a su plataforma de alojamiento de modelos de IA
Al igual que cualquier proveedor SaaS, las empresas de IA son perfectamente capaces de proporcionar niveles estándar de seguridad, privacidad, opciones in situ, y en general proporcionar su servicio de manera responsable. ¡No tengo dudas de que las bases de datos privadas y las llamadas a las API de los clientes del Fortune 500 de OpenAI están muy seguras! Seguramente están tan conscientes o más de los riesgos inherentes al manejo de datos confidenciales en el contexto de la IA. (El hecho de que OpenAI no haya informado este ataque es su elección, pero no inspira confianza para una empresa que la necesita desesperadamente).
Pero las buenas prácticas de seguridad no cambian el valor de lo que se supone que protegen, ni el hecho de que actores malintencionados y adversarios de todo tipo están arañando la puerta para ingresar. La seguridad no es sólo elegir la configuración correcta o mantener el software actualizado, aunque por supuesto los conceptos básicos también son importantes. Es un juego de gato y ratón interminable que, irónicamente, ahora está siendo potenciado por la IA misma: los agentes y los automatizadores de ataques están explorando cada rincón y recoveco de las superficies de ataque de estas empresas.
No hay razón para entrar en pánico: las empresas con acceso a una gran cantidad de datos personales o comercialmente valiosos han enfrentado y gestionado riesgos similares durante años. Pero las empresas de IA representan un objetivo más nuevo, más joven y potencialmente más jugoso que su servidor empresarial mal configurado común o un intermediario de datos irresponsable. Incluso un hackeo como el reportado anteriormente, sin extracciones serias que sepamos, debería preocupar a cualquier persona que haga negocios con empresas de IA. Han pintado los objetivos en sus espaldas. No se sorprenda cuando alguien, o todos, les dispare.
La IA ayuda a los hackers de los Estados-nación pero también ayuda a los espías estadounidenses a encontrarlos, dice el director de ciberseguridad de la NSA