
OpenAI puede estar cerca de lanzar una herramienta de IA que puede tomar el control de tu PC y realizar acciones en tu nombre.
Tibor Blaho, un ingeniero de software con fama de filtrar con precisión próximos productos de IA, afirma haber descubierto evidencia de la herramienta Operator de OpenAI que ha sido rumoreada durante mucho tiempo. Publicaciones como Bloomberg han informado previamente sobre Operator, que se dice que es un sistema 'agente' capaz de manejar tareas de manera autónoma como escribir código y reservar viajes.
Según The Information, OpenAI tiene como objetivo el mes de enero como mes de lanzamiento de Operator. El código descubierto por Blaho este fin de semana respalda ese informe.
El cliente ChatGPT de OpenAI para macOS ha ganado opciones, ocultas por ahora, para definir atajos para 'Alternar Operator' y 'Forzar el cierre de Operator', según Blaho. Y OpenAI ha agregado referencias a Operator en su sitio web, dijo Blaho, aunque las referencias aún no son visibles públicamente.
Confirmado: la aplicación de escritorio ChatGPT para macOS tiene opciones ocultas para definir atajos para el lanzador de escritorio para 'Alternar Operator' y 'Forzar cierre de Operator' https://t.co/rSFobi4iPN pic.twitter.com/j19YSlexAS
— Tibor Blaho (@btibor91) 19 de enero de 2025
Según Blaho, el sitio de OpenAI también contiene tablas aún no públicas que comparan el rendimiento de Operator con otros sistemas de IA que usan computadoras. Las tablas bien podrían ser marcadores de posición. Pero si los números son precisos, sugieren que Operator no es 100% confiable, dependiendo de la tarea.
El sitio web de OpenAI ya tiene referencias a Operator/OpenAI CUA (Agente de Uso de Computadora) - 'Tabla de sistema de Operator', 'Tabla de evaluación de investigación de Operator' y 'Tabla de tasa de rechazo del Operator'
Incluyendo comparación con Claude 3.5 Sonnet Computer use, Google Mariner, etc.
(vista previa de tablas... pic.twitter.com/OOBgC3ddkU
— Tibor Blaho (@btibor91) 20 de enero de 2025
En OSWorld, un benchmark que intenta imitar un entorno informático real, 'OpenAI Computer Use Agent (CUA)' - posiblemente el modelo de IA que impulsa Operator - obtiene un 38.1%, por delante del modelo de control de computadora de Anthropic pero muy por debajo del 72.4% que los humanos obtienen. OpenAI CUA supera el rendimiento humano en WebVoyager, que evalúa la capacidad de un IA para navegar e interactuar con sitios web. Pero el modelo no alcanza los puntajes a nivel humano en otro benchmark basado en la web, WebArena, según los benchmarks filtrados.
Operator también tiene dificultades con tareas que un humano podría realizar fácilmente, si se cree la filtración. En una prueba que le encargó a Operator registrarse en un proveedor de servicios en la nube y lanzar una máquina virtual, Operator tuvo éxito solo el 60% de las veces. Encargado de crear una billetera de Bitcoin, Operator tuvo éxito solo el 10% de las veces.
Nos hemos contactado con OpenAI para obtener comentarios y actualizaremos este artículo si recibimos una respuesta.
La próxima entrada de OpenAI en el espacio de agentes de IA se produce mientras rivales como Anthropic, Google y otros realizan jugadas por el segmento incipiente. Los agentes de IA pueden ser arriesgados y especulativos, pero las grandes empresas tecnológicas ya los están promocionando como la próxima gran cosa en IA. Según la firma de análisis Markets and Markets, el mercado de agentes de IA podría valer $47.1 mil millones para 2030.
Los agentes hoy en día son bastante primitivos. Pero algunos expertos han planteado preocupaciones sobre su seguridad, si la tecnología mejora rápidamente.
Uno de los gráficos filtrados muestra que Operator se desempeña bien en evaluaciones seleccionadas de seguridad, incluidas pruebas que intentan que el sistema realice 'actividades ilícitas' y busque 'datos personales sensibles'. Reportadamente, las pruebas de seguridad son una de las razones por las que Operator ha tenido un largo ciclo de desarrollo. En un reciente post en X, el cofundador de OpenAI, Wojciech Zaremba, criticó a Anthropic por lanzar un agente que, según él, carece de mitigaciones de seguridad.
'Solo puedo imaginar las reacciones negativas si OpenAI hiciera un lanzamiento similar', escribió Zaremba.
Vale la pena señalar que OpenAI ha sido criticado por investigadores de IA, incluidos ex empleados, por supuestamente desestimar el trabajo de seguridad en favor de productizar rápidamente su tecnología.