Skip to main content

OpenAI ha presentado GPT-5-Codex, una versión ajustada de su modelo GPT-5, entrenada con un objetivo concreto: programar. Pero esta vez no se trata solo de velocidad o precisión. Codex ha dejado de ser el asistente que sugiere líneas de código. Ahora se toma su tiempo. Razonar, revisar, corregir. Puede tardar segundos, o quedarse trabajando más de siete horas en una misma tarea. Lo nuevo no es lo que hace, sino cómo lo hace.

De sugerencias sueltas a ciclos completos de trabajo

GPT-5-Codex no improvisa, planifica. Puede escribir una función sencilla, sí, pero también identificar un bug crítico, reestructurar dependencias, lanzar tests y rehacer módulos enteros si hace falta. Decide cuánto esfuerzo dedicar a cada encargo. A veces basta con segundos. Otras, se queda procesando durante horas sin intervención humana.

Todo esto es posible porque ha sido afinado con datos reales, código, historial de versiones, pruebas unitarias, tareas de refactorización. Según OpenAI, el modelo ha sido entrenado no solo para escribir, sino para entender el flujo completo del desarrollo de software.

También ajusta su consumo: en tareas simples, usa hasta 93,7% menos tokens que su versión base. En las complejas, duplica el esfuerzo. Es decir, adapta su razonamiento al contexto sin necesidad de intervención externa.

Lo que cambia cuando la máquina revisa tu código

Tres capacidades sobresalen: razonamiento sostenido, revisión técnica y autonomía. GPT-5-Codex no solo detecta errores; también comenta como un revisor experimentado. Sugiere mejoras, ejecuta pruebas y decide si su propia propuesta funciona.

En pruebas internas, los comentarios que generó fueron más certeros y menos dispersos. En proyectos escritos en Python, Go u OCaml, su desempeño superó al de versiones anteriores. Lo relevante no es que entienda el código, sino que empieza a entender el contexto.

Además, puede procesar capturas de pantalla para identificar errores visuales o problemas de interfaz. Analiza entradas visuales y devuelve resultados ilustrados con imágenes, útil en interfaces gráficas o entornos web.

Qué datos ha visto y con qué lo han medido

Para entrenarlo, OpenAI utilizó benchmarks como SWE-bench Verified, un repositorio de tareas reales extraídas de proyectos de código abierto. Ahí, el nuevo modelo resolvió más problemas y con mejor calidad que GPT-5 estándar. También fue evaluado con commits reales en producción, analizados por ingenieros humanos. Buscaron correcciones precisas, impacto real y reducción de errores. El modelo se integra en múltiples entornos, desde el terminal hasta GitHub, pasando por ChatGPT en móvil o su versión en la nube.

Cuando pensar mucho también tiene un coste

El razonamiento prolongado tiene ventajas. Pero también implica preguntas prácticas: ¿cuánto cuesta dejar a un modelo procesando durante horas? ¿Cómo saber si está usando bien ese tiempo? ¿Y si se equivoca, pero de forma convincente? También hay cuestiones de flujo: ¿cómo se integra un agente autónomo en un equipo humano? ¿Qué tareas dejamos ir? ¿Cuáles se revisan de nuevo, aunque la máquina diga que ya están resueltas?

Qué hace distinto a Codex frente a otros agentes

La competencia se mueve. Claude Code, Cursor, GitHub Copilot, todos quieren ocupar ese espacio de copiloto técnico. Lo que OpenAI propone con Codex no es solo una mejora incremental, sino un cambio de ritmo. De respuesta inmediata a trabajo en segundo plano. De sugerencia puntual a jornada extendida. Esa nueva autonomía puede ser útil. O excesiva. Dependerá del proyecto, del contexto y, sobre todo, de cuánto estamos dispuestos a dejar que piense solo.

Abre un paréntesis en tus rutinas. Suscríbete a nuestra newsletter y ponte al día en tecnología, IA y medios de comunicación.

Dejar un comentario