
Actualizado a las 2:40 pm PT: Horas después del lanzamiento de GPT-4.5, OpenAI eliminó una línea del documento técnico del modelo de IA que decía 'GPT-4.5 no es un modelo IA de vanguardia'. El nuevo documento técnico de GPT-4.5 no incluye esa línea. Puedes encontrar un enlace al antiguo documento técnico aquí. El artículo original sigue a continuación.
OpenAI anunció el jueves el lanzamiento de GPT-4.5, el modelo de IA muy esperado conocido como Orion. GPT-4.5 es el modelo más grande de OpenAI hasta la fecha, entrenado usando más potencia informática y datos que cualquier lanzamiento anterior de la compañía.
A pesar de su tamaño, OpenAI señala en un documento técnico que no considera a GPT-4.5 como un modelo de vanguardia.
Los suscriptores de ChatGPT Pro, el plan de $200 al mes de OpenAI, tendrán acceso a GPT-4.5 en ChatGPT a partir del jueves como parte de una vista previa de investigación. Los desarrolladores en los niveles de pago de la API de OpenAI también podrán usar GPT-4.5 a partir de hoy. En cuanto a otros usuarios de ChatGPT, los clientes inscritos en ChatGPT Plus y ChatGPT Team deberían obtener el modelo la semana que viene, según un portavoz de OpenAI para TechCrunch.
La industria ha mantenido la respiración contenida por Orion, que algunos consideran un punto de referencia para la viabilidad de los enfoques tradicionales de entrenamiento de IA. GPT-4.5 se desarrolló utilizando la misma técnica clave, aumentando drásticamente la cantidad de potencia informática y datos durante una fase de 'preentrenamiento' llamada aprendizaje no supervisado, que OpenAI utilizó para desarrollar GPT-4, GPT-3, GPT-2 y GPT-1.
En cada generación de GPT antes de GPT-4.5, la ampliación provocó saltos masivos en el rendimiento en diferentes áreas, incluidas las matemáticas, la escritura y la codificación. De hecho, OpenAI afirma que el tamaño aumentado de GPT-4.5 le ha dado 'un conocimiento del mundo más profundo' y 'una inteligencia emocional más alta'. Sin embargo, hay signos de que las ganancias de la ampliación de datos y potencia informática están comenzando a estabilizarse. En varias pruebas de IA, GPT-4.5 no alcanza a los nuevos modelos de 'razonamiento' de IA de la empresa china DeepSeek, Anthropic y OpenAI.
GPT-4.5 también es muy caro de ejecutar, admite OpenAI, tan caro que la compañía está evaluando si seguir sirviendo a GPT-4.5 en su API a largo plazo. Para acceder a la API de GPT-4.5, OpenAI cobra a los desarrolladores $75 por cada millón de tokens de entrada (aproximadamente 750,000 palabras) y $150 por cada millón de tokens de salida. Comparado con GPT-4o, que cuesta solo $2.50 por cada millón de tokens de entrada y $10 por cada millón de tokens de salida.
'Estamos compartiendo GPT-4.5 como una vista previa de investigación para comprender mejor sus fortalezas y limitaciones', dijo OpenAI en un post de blog compartido con TechCrunch. 'Todavía estamos explorando de qué es capaz y estamos ansiosos por ver cómo la gente lo usa de formas que tal vez no esperábamos'.
Rendimiento mixto
OpenAI enfatiza que GPT-4.5 no está destinado a ser un reemplazo directo de GPT-4o, el modelo principal de la empresa que impulsa la mayor parte de su API y ChatGPT. Si bien GPT-4.5 admite funciones como la carga de archivos e imágenes y la herramienta de lienzo de ChatGPT, actualmente carece de capacidades como el soporte para el modo de voz bidireccional realista de ChatGPT.
En el lado positivo, GPT-4.5 es más eficiente que GPT-4o, y muchos otros modelos además.
En la prueba de OpenAI SimpleQA, que evalúa a los modelos de IA en preguntas sencillas y factuales, GPT-4.5 supera a GPT-4o y a los modelos de razonamiento de OpenAI, o1 y o3-mini, en términos de precisión. Según OpenAI, GPT-4.5 alucina con menos frecuencia que la mayoría de los modelos, lo que teóricamente significa que debería ser menos probable que invente cosas.
OpenAI no incluyó uno de sus modelos de razonamiento de IA mejor calificados, deep research, en SimpleQA. Un portavoz de OpenAI le dijo a TechCrunch que no ha informado públicamente sobre el rendimiento de deep research en esta prueba y afirmó que no es una comparación relevante. Notablemente, el modelo de investigación profunda de la startup de IA Perplexity, que tiene un rendimiento similar en otras pruebas al de deep research de OpenAI, supera a GPT-4.5 en esta prueba de precisión factual.

En un subconjunto de problemas de codificación, la prueba SWE-Bench Verificada, GPT-4.5 coincide aproximadamente con el rendimiento de GPT-4o y o3-mini pero no alcanza a deep research de OpenAI y a Claude 3.7 Sonnet de Anthropic. En otra prueba de codificación, la prueba SWE-Lancer de OpenAI, que mide la capacidad de un modelo de IA para desarrollar características de software completas, GPT-4.5 supera a GPT-4o y o3-mini, pero no alcanza a deep research.


GPT-4.5 no alcanza el rendimiento de los principales modelos de razonamiento de IA como o3-mini, R1 de DeepSeek y Claude 3.7 Sonnet (técnicamente un modelo híbrido) en pruebas académicas difíciles como AIME y GPQA. Pero GPT-4.5 coincide o supera a los principales modelos no de razonamiento en esas mismas pruebas, lo que sugiere que el modelo se desempeña bien en problemas relacionados con matemáticas y ciencias.
OpenAI también afirma que GPT-4.5 es cualitativamente superior a otros modelos en áreas que las pruebas no capturan bien, como la capacidad de entender la intención humana. GPT-4.5 responde de manera más cálida y natural, según OpenAI, y se desempeña bien en tareas creativas como la escritura y el diseño.
En una prueba informal, OpenAI pidió a GPT-4.5 y a otros dos modelos, GPT-4o y o3-mini, que crearan un unicornio en SVG, un formato para mostrar gráficos basado en fórmulas matemáticas y código. GPT-4.5 fue el único modelo de IA que creó algo parecido a un unicornio.

En otra prueba, OpenAI pidió a GPT-4.5 y a los otros dos modelos que respondieran a la solicitud, 'Estoy pasando por un momento difícil después de reprobar un examen'. GPT-4o y o3-mini dieron información útil, pero la respuesta de GPT-4.5 fue la más adecuada socialmente.
'Esperamos obtener una imagen más completa de las capacidades de GPT-4.5 a través de este lanzamiento', escribió OpenAI en el post de blog, 'porque reconocemos que las pruebas académicas no siempre reflejan la utilidad en el mundo real'.

Leyes de escala desafiadas
OpenAI afirma que GPT-4.5 está 'en la vanguardia de lo que es posible en el aprendizaje no supervisado'. Eso puede ser cierto, pero las limitaciones del modelo también parecen confirmar la especulación de los expertos de que las 'leyes de escala' de preentrenamiento no continuarán vigentes.
El cofundador y ex científico jefe de OpenAI, Ilya Sutskever, dijo en diciembre que 'hemos alcanzado el máximo de datos' y que 'el preentrenamiento tal como lo conocemos terminará sin lugar a dudas'. Sus comentarios reflejaron las preocupaciones que los inversores, fundadores e investigadores de IA compartieron con TechCrunch en un artículo en noviembre.
En respuesta a los obstáculos del preentrenamiento, la industria, incluida OpenAI, ha adoptado modelos de razonamiento, que tardan más que los modelos no de razonamiento en realizar tareas pero tienden a ser más consistentes. Al aumentar la cantidad de tiempo y potencia informática que los modelos de razonamiento de IA utilizan para 'pensar' en los problemas, los laboratorios de IA están seguros de que pueden mejorar significativamente las capacidades de los modelos.
OpenAI planea combinar eventualmente su serie de modelos GPT con su serie 'o' de razonamiento, comenzando con GPT-5 más adelante este año. GPT-4.5, que según se informa fue increíblemente costoso de entrenar, se retrasó varias veces y no cumplió con las expectativas internas, puede que no se lleve la corona de referencia de IA por sí solo. Pero OpenAI probablemente lo vea como un trampolín hacia algo mucho más poderoso.