El 25 de septiembre de 2025, OpenAI presentó una nueva evaluación llamada GDPval con el propósito de medir cuán bien sus modelos —y los de otros— rinden frente a tareas reales de conocimiento económico. En lugar de someter los modelos a exámenes académicos, esta prueba los expone a entregables auténticos: textos legales, planos de ingeniería, planes de cuidado sanitario, informes financieros y más. La idea es evaluar productividad, no solo “inteligencia”.
Qué mide exactamente GDPval
La versión inicial de GDPval cubre 44 ocupaciones representativas de 9 industrias que aportan mucho al producto interior bruto de EE. UU. Para cada ocupación se construyeron tareas reales —1.320 en total, con un subconjunto abierto de 220 “gold tasks”— diseñadas por profesionales con, en promedio, 14 años de experiencia. Cada tarea viene con contexto, archivos de referencia, plantillas, y pide resultados multimodales (gráficos, presentaciones, documentos con estructura).
Cómo se evalúan los resultados
Para calificarlas, OpenAI recurrió a jurados expertos que, en condiciones ciegas (sin saber si el entregable es humano o generado por IA), comparan calidad, precisión, estilo y utilidad. También utilizaron un autograder —un sistema interno de IA— para predecir cómo juzgaría un humano, aunque reconocen que ese sistema automatizado aún no puede reemplazar la evaluación humana.
Qué tan bien lo hacen los modelos
Los resultados, según OpenAI, muestran avances notables. Modelos como GPT‑5 y Claude Opus 4.1 han alcanzado rendimientos que son “mejores o al nivel del humano” —es decir, empates o victorias en comparación con expertos— en una parte significativa de las tareas del conjunto “gold”. En comparación con GPT‑4o (versión de 2024), el progreso ha sido más que lineal: el rendimiento “más que se duplicó” de GPT‑4o a GPT‑5. Además, los modelos completan esas tareas unas 100 veces más rápido y con costos brutos 100 veces menores (considerando inferencia e tarifas de API).
Límites y advertencias
Pero el anuncio no carece de cautela. OpenAI advierte que GDPval es una primera versión, limitada: muchas tareas reales no están incluidas, no captura iteraciones múltiples, ni el valor del diálogo, la adaptabilidad o la supervisión humana que aparece en entornos reales. Y en su propio documento afirman que los logros de velocidad o reducción de costos no contabilizan los costos de integración, control de calidad ni correcciones humanas.
Más que inteligencia: hacia una economía aumentada
Este tipo de evaluación representa un cambio de paradigma: medir cuánta “tarea útil real” puede hacer un modelo de IA, no solo cuánto puede razonar en pruebas artificiales. Para empresas, esto puede convertirse en una métrica para planificar automatización. Pero también obliga a repensar qué valor distingue al humano: juicio en la ambigüedad, negociación, ética, responsabilidad, adaptación frente a lo inesperado.
Una frontera que se mueve
En conclusión, GDPval no anuncia que las IA sustitirán masivamente a trabajadores de oficina de la noche a la mañana, pero sugiere que la frontera entre “lo que solo puede hacer un humano” y “lo que ya puede hacer una IA” se está desplazando rápidamente. Este tipo de evaluaciones permitirá trasladar el discurso de “revolución hipotética” a “medición concreta”. Y en ese cruce, toca replantear el trabajo del futuro.
Abre un paréntesis en tus rutinas. Suscríbete a nuestra newsletter y ponte al día en tecnología, IA y medios de comunicación.