OpenAI dice que está construyendo una herramienta para permitir a los creadores de contenido 'optar' por un entrenamiento de IA

OpenAI dice que está desarrollando una herramienta para permitir a los creadores controlar mejor cómo se utiliza su contenido en el entrenamiento de IA generativa.

La herramienta, llamada Media Manager, permitirá a los creadores y propietarios de contenido identificar sus trabajos a OpenAI y especificar cómo quieren que esos trabajos se incluyan o excluyan de la investigación y el entrenamiento de IA.

El objetivo es tener la herramienta en funcionamiento para 2025, dice OpenAI, mientras la compañía trabaja con 'creadores, propietarios de contenido y reguladores' hacia un estándar, tal vez a través del comité directivo de la industria al que se unió recientemente.

'Esto requerirá investigación avanzada en el aprendizaje automático para construir una herramienta única en su tipo que nos ayude a identificar texto, imágenes, audio y video con derechos de autor en varias fuentes y reflejar las preferencias del creador', escribió OpenAI en una publicación de blog. 'Con el tiempo, planeamos introducir opciones y características adicionales'.

Parecería que Media Manager, sea cual sea la forma que finalmente tome, es la respuesta de OpenAI a la creciente crítica a su enfoque para desarrollar IA, que se basa en gran medida en la recopilación de datos disponibles públicamente en la web. Más recientemente, ocho prominentes periódicos de EE. UU., incluido el Chicago Tribune, demandaron a OpenAI por infracción de propiedad intelectual relacionada con el uso de IA generativa, acusando a OpenAI de robar artículos para entrenar modelos de IA generativa que luego comercializó sin compensar, ni acreditar, a las publicaciones de origen.

Los modelos de IA generativa, incluido el de OpenAI, son los tipos de modelos que pueden analizar y generar texto, imágenes, videos y más, y generalmente se entrenan con una enorme cantidad de ejemplos obtenidos de sitios públicos y conjuntos de datos. OpenAI y otros proveedores de IA generativa argumentan que el uso legítimo, la doctrina legal que permite el uso de obras con derechos de autor para hacer una creación secundaria siempre que sea transformadora, protege su práctica de recopilar datos públicos y usarlos para el entrenamiento del modelo. Pero no todos están de acuerdo.

De hecho, OpenAI recientemente argumentó que sería imposible crear modelos de IA útiles sin material con derechos de autor.

Pero en un esfuerzo por calmar a los críticos y defenderse contra futuras demandas, OpenAI ha tomado medidas para llegar a un acuerdo con los creadores de contenido.

El año pasado, OpenAI permitió a los artistas 'optar' por eliminar su trabajo de los conjuntos de datos que la compañía utiliza para entrenar sus modelos de generación de imágenes. La compañía también permite a los propietarios de sitios web indicar a través del estándar robots.txt, que da instrucciones a los bots de rastreo web, si el contenido en su sitio puede ser recopilado para entrenar modelos de IA. Y OpenAI continúa firmando acuerdos de licencia con grandes propietarios de contenido, incluidas organizaciones de noticias, bibliotecas de medios de stock y sitios de preguntas y respuestas como Stack Overflow.

Algunos creadores de contenido dicen que OpenAI no ha llegado lo suficientemente lejos, sin embargo.

Los artistas han descrito el flujo de trabajo de 'optar' de OpenAI para imágenes, que requiere enviar una copia individual de cada imagen a eliminar junto con una descripción, como engorroso. Se informa que OpenAI paga relativamente poco por el contenido con licencia. Y, como OpenAI reconoce en la publicación de blog del martes, las soluciones actuales de la empresa no abordan los escenarios en los que las obras de los creadores son citadas, remezcladas o reproducidas en plataformas que no controlan.

Más allá de OpenAI, varias terceras partes están intentando construir herramientas universales de procedencia y 'opt-out' para IA generativa.

La startup Spawning AI, cuyos socios incluyen Stability AI y Hugging Face, ofrece una aplicación que identifica y rastrea las direcciones IP de los bots para bloquear intentos de rastreo, así como una base de datos donde los artistas pueden registrar sus obras para impedir el entrenamiento por parte de los proveedores que elijan respetar las solicitudes. Steg.AI e Imatag ayudan a los creadores a establecer la propiedad de sus imágenes aplicando marcas de agua imperceptibles para el ojo humano. Y Nightshade, un proyecto de la Universidad de Chicago, 'envenena' los datos de imagen para volverlos inútiles o disruptivos para el entrenamiento de modelos de IA.