Skip to main content

OpenAI presenta GPT-5.4 como su modelo más “factual” y eficiente: reduce afirmaciones falsas y usa menos tokens para resolver tareas complejas. 

OpenAI ha lanzado GPT-5.4 y lo ha desplegado a la vez en ChatGPT (como GPT-5.4 Thinking), en la API y en Codex, con una variante adicional, GPT-5.4 Pro, orientada a quienes buscan el máximo rendimiento en tareas exigentes. La compañía lo describe como su modelo “frontera” más capaz y eficiente para trabajo profesional, con mejoras combinadas en razonamiento, programación y flujos agentivos (agents) que operan a través de herramientas, conectores y entornos de software.

La clave de esta versión no es un único “truco” nuevo, sino un cambio de enfoque: GPT-5.4 intenta convertirse en el modelo que hace el trabajo, no solo el que responde. OpenAI afirma que ha puesto especial énfasis en tareas reales que suelen atascar a los modelos: crear y editar hojas de cálculo, presentaciones y documentos, sostener contexto cuando la respuesta requiere “pensar más tiempo”, y ejecutar tareas encadenadas donde el usuario necesita algo más parecido a un asistente operativo que a un chatbot.

Dos GPT-5.4: Thinking y Pro, con una diferencia práctica

En ChatGPT, el modelo llega como GPT-5.4 Thinking, que incorpora un cambio de interacción relevante: puede mostrar un plan por adelantado y permitir que el usuario redirija la respuesta mientras se está generando (lo que OpenAI y algunos medios han descrito como “steering”: guiar el razonamiento en marcha). Esa capacidad se despliega primero en web y Android, con llegada posterior a iOS, según la comunicación pública sobre el lanzamiento.

La versión GPT-5.4 Pro se posiciona como la opción para “máximo rendimiento” en tareas complejas y también está disponible en ChatGPT (según plan) y en la API. A nivel editorial, el mensaje de OpenAI es claro: menos vueltas (menos “back and forth”) para llegar a un entregable final usable.

El salto que marca esta entrega: agentes con “uso nativo del ordenador”

En Codex y en la API, GPT-5.4 se presenta como el primer modelo generalista de OpenAI con capacidades nativas avanzadas de computer use (uso del ordenador): agentes capaces de operar interfaces, coordinar aplicaciones y ejecutar flujos en software a partir de objetivos. La compañía enmarca esto como un paso importante hacia sistemas que no solo generan texto o código, sino que planifican, ejecutan y verifican tareas largas.

Este punto importa por una razón: el mercado de la IA se ha movido desde “modelos mejores” hacia “modelos que hacen cosas”. En ese terreno, la ventaja no es únicamente responder bien, sino interactuar con herramientas y entornos (navegador, suites ofimáticas, repositorios, conectores corporativos) de forma robusta, sin degradar la precisión. OpenAI dice haber reforzado justo esa capa: el modelo mejora su capacidad para trabajar en ecosistemas grandes de herramientas y conectores mediante algo que denomina tool search, para encontrar y usar la herramienta adecuada con mayor eficiencia.

1 millón de tokens: contexto largo, pero con matices

Uno de los datos que más titulares genera es la ventana de contexto: OpenAI indica que GPT-5.4 en Codex incluye soporte experimental para hasta 1M tokens de contexto, con configuración específica, y que superar el umbral estándar tiene implicaciones de coste/uso. En otras palabras: hay “modo largo”, pero es una capacidad pensada para desarrolladores y agentes en entornos controlados, no necesariamente para el ChatGPT de consumo tal como lo usan la mayoría de personas.

En el propio anuncio, OpenAI también aclara que las ventanas de contexto en ChatGPT para GPT-5.4 Thinking no cambian respecto a GPT-5.2 Thinking. Es un detalle importante para no confundir “lo que el modelo puede en API/Codex” con “lo que llega tal cual a la interfaz de ChatGPT”.

Más “factual”, menos tokens, más velocidad: el argumento de eficiencia

OpenAI presenta GPT-5.4 como su modelo más “factual” hasta la fecha: en un conjunto de prompts desidentificados donde usuarios habían señalado errores, la compañía afirma que las afirmaciones individuales son un 33% menos propensas a ser falsas y que las respuestas completas tienen un 18% menos de probabilidades de contener errores frente a GPT-5.2.

A ese argumento le suma otro: eficiencia de tokens. GPT-5.4 se describe como el modelo de razonamiento más eficiente de OpenAI, usando menos tokens para resolver problemas, lo que se traduce en menor consumo y más rapidez en muchos escenarios (especialmente en tareas largas donde el coste no es solo el precio por token, sino la cantidad total de tokens gastados para llegar al resultado).

“Profesional” significa Office: hojas de cálculo, presentaciones y documentos

El anuncio de OpenAI dedica espacio explícito al trabajo “de oficina” y al tipo de entregables que sostienen la productividad real: modelos financieros en hojas de cálculo, presentaciones, documentos con estructura y edición iterativa. La compañía afirma que GPT-5.4 mejora de forma notable en tareas de modelado de spreadsheets (con métricas internas) y lo acompaña con herramientas y guías para usarlo de forma más fiable en flujos profesionales.

Además, OpenAI enlaza esta orientación con un movimiento práctico: el mismo día del lanzamiento menciona un add-in para Excel en el contexto de clientes empresariales, subrayando que el objetivo no es solo “generar texto”, sino integrarse en las aplicaciones donde se decide y se trabaja.

Benchmarks: por qué importan (y por qué no bastan)

Como es habitual, OpenAI acompaña el lanzamiento con métricas en evaluaciones: resultados en tareas de “knowledge work”, programación y uso de ordenador (por ejemplo, OSWorld-Verified), además de benchmarks de navegación y herramientas. La lectura que propone OpenAI es que GPT-5.4 sube el listón de forma consistente en escenarios que combinan razonamiento + herramientas + ejecución.

Pero el matiz periodístico aquí es imprescindible: estos benchmarks sirven para orientar, no para certificar “seguridad” o “fiabilidad” en producción. Lo que sí indican —y aquí el lanzamiento es coherente— es que el foco del modelo ya no está solo en generar texto correcto, sino en actuar con herramientas sin desmoronarse.

Precio y estrategia: más caro por token, pero con promesa de menor coste total

En la API, OpenAI sitúa a GPT-5.4 por encima de GPT-5.2 en precio por token. Según su tabla, gpt-5.4 cuesta $2.50 por millón de tokens de entrada (y $15 de salida), frente a $1.75 de entrada en gpt-5.2 (y $14 de salida). En gpt-5.4-pro, el salto es más acusado: $30 de entrada y $180 de salida por millón.

La justificación es doble: (1) capacidades superiores y (2) mayor eficiencia, que podría reducir el gasto total en casos donde antes se necesitaban más turnos o más tokens de razonamiento para llegar al mismo resultado. Esta es la apuesta comercial de OpenAI: cobrar más por unidad, pero prometer que el trabajo sale antes y con menos iteración.

Disponibilidad: quién lo ve y qué pasa con GPT-5.2 Thinking

En ChatGPT, OpenAI indica que GPT-5.4 Thinking está disponible para Plus, Team y Pro, reemplazando a GPT-5.2 Thinking, que permanece en “Legacy Models” durante un periodo de transición antes de retirarse (con fecha de retirada indicada en el anuncio). Para Enterprise y Edu se contempla acceso temprano mediante ajustes de administrador, y GPT-5.4 Pro queda asociado a planes superiores.

Lo que cambia para usuarios y empresas: del “prompt” al “proceso”

Si hay una idea que atraviesa GPT-5.4 es que la IA se acerca al territorio del proceso completo: no solo escribir un texto, sino hacer una investigación, sintetizar fuentes, construir un entregable (documento/presentación/spreadsheet) y, en API/Codex, operar software con capacidades de “uso del ordenador”. Medios como The Verge lo han leído como un paso más hacia el futuro de agentes que ejecutan trabajos complejos con menos intervención humana directa.

El riesgo, sin embargo, también sube: cuanto más “actúa” un modelo, más importante es el control, la auditoría y la gobernanza. OpenAI intenta responder con el discurso de factualidad, eficiencia y mejor uso de herramientas; el mercado evaluará si esas promesas se sostienen cuando GPT-5.4 se ponga a prueba en empresas con datos sensibles, flujos críticos y tolerancia cero al error.

Dejar un comentario