OpenAI puede 'ajustar' sus salvaguardias si los rivales lanzan IA de 'alto riesgo'

OpenAI ha actualizado su Marco de Preparación, el sistema interno que utiliza para evaluar la seguridad de los modelos de IA y determinar las salvaguardias necesarias durante el desarrollo e implementación. En la actualización, OpenAI declaró que puede 'ajustar' sus requisitos de seguridad si un laboratorio de IA competidor lanza un sistema de 'alto riesgo' sin protecciones similares en su lugar.

El cambio refleja las crecientes presiones competitivas sobre los desarrolladores comerciales de IA para desplegar modelos rápidamente. OpenAI ha sido acusado de disminuir los estándares de seguridad a favor de lanzamientos más rápidos y de no presentar informes oportunos detallando sus pruebas de seguridad. La semana pasada, 12 ex empleados de OpenAI presentaron un informe en el caso de Elon Musk contra OpenAI, argumentando que la empresa estaría alentada a recortar aún más los estándares de seguridad si completa su reestructuración corporativa planificada.

Quizás anticipando críticas, OpenAI afirma que no haría estos ajustes de política a la ligera y que mantendría sus salvaguardias a 'un nivel más protector'.

'Si otro desarrollador de IA de vanguardia lanza un sistema de alto riesgo sin salvaguardias comparables, podemos ajustar nuestros requisitos', escribió OpenAI en una publicación de blog publicada el martes por la tarde. 'Sin embargo, primero confirmaríamos rigurosamente que el panorama de riesgo realmente ha cambiado, reconoceríamos públicamente que estamos haciendo un ajuste, evaluaríamos que el ajuste no aumenta significativamente el riesgo general de daño grave y seguiríamos manteniendo las salvaguardias a un nivel más protector'.

El Marco de Preparación actualizado también deja claro que OpenAI está confiando más en evaluaciones automatizadas para acelerar el desarrollo de productos. La empresa dice que si bien no ha abandonado por completo las pruebas lideradas por humanos, ha construido 'una creciente serie de evaluaciones automatizadas' que supuestamente pueden 'mantenerse al día con un ritmo de lanzamiento más rápido'.

Algunos informes contradicen esto. Según el Financial Times, OpenAI dio a los probadores menos de una semana para realizar controles de seguridad para un próximo modelo importante, un cronograma comprimido en comparación con lanzamientos anteriores. Las fuentes de la publicación también alegaron que muchas de las pruebas de seguridad de OpenAI ahora se llevan a cabo en versiones anteriores de modelos en lugar de en las versiones lanzadas al público.

En declaraciones, OpenAI ha negado la idea de que está comprometiendo la seguridad.

OpenAI está reduciendo silenciosamente sus compromisos de seguridad.

Eliminado de la lista de cambios del Marco de Preparación de OpenAI:

Ya no se requieren pruebas de seguridad de modelos ajustados https://t.co/oTmEiAtSjS

— Steven Adler (@sjgadler) 15 de abril de 2025

Otros cambios en el marco de OpenAI se refieren a cómo la empresa categoriza los modelos según el riesgo, incluidos los modelos que pueden ocultar sus capacidades, evadir salvaguardias, evitar su apagado e incluso auto replicarse. OpenAI dice que ahora se centrará en si los modelos cumplen uno de dos umbrales: capacidad 'alta' o capacidad 'crítica'.

La definición de OpenAI de lo primero es un modelo que podría 'amplificar los caminos existentes hacia daños graves'. Los modelos que 'introducen nuevos caminos sin precedentes hacia daños graves' son considerados críticos, según la empresa.

'Los sistemas cubiertos que alcanzan una capacidad alta deben tener salvaguardias que minimicen suficientemente el riesgo asociado de daños graves antes de ser desplegados', escribió OpenAI en su entrada de blog. 'Los sistemas que alcanzan una capacidad crítica también requieren salvaguardias que minimicen suficientemente los riesgos asociados durante el desarrollo'.

Estas actualizaciones son las primeras que OpenAI ha realizado al Marco de Preparación desde 2023.