Skip to main content

Un rigurosos estudio publicado recientemente plantea que los sistemas de inteligencia artificial diseñados para actuar con autonomía aún no están preparados para sustituir el trabajo profesional de alto nivel en contextos reales, y cuestiona la narrativa predominante sobre su llegada inminente al mercado laboral.

Casi dos años después de que altos ejecutivos del sector tecnológico predijeran que la inteligencia artificial reemplazaría al trabajo del conocimiento —las llamadas profesiones “white-collar” como abogados, consultores, banqueros o especialistas en TI—, la realidad empieza a mostrar que ese escenario todavía está lejos de materializarse. Aunque los modelos de lenguaje y los agentes autónomos han avanzado de manera impresionante, una evaluación meticulosa de capacidades en tareas laborales complejas pone en evidencia limitaciones significativas que no suelen aparecer en demostraciones de producto o casos de uso aislados.

Una prueba diseñada para medir lo que de verdad importa

La firma de datos y entrenamiento Mercor ha desarrollado un nuevo benchmark llamado APEX-Agents con el propósito de evaluar la capacidad de los llamados agentes de IA para realizar tareas que imitan el verdadero trabajo profesional. A diferencia de pruebas más sencillas o de entornos de laboratorio, este benchmark construye escenarios que reflejan actividades reales extraídas de consultoría, banca de inversión y derecho, y que requieren pensamiento prolongado, navegación de múltiples herramientas digitales y razonamiento cross-aplicación.

La metodología de APEX-Agents parte de un análisis riguroso de cómo trabajan los profesionales: no hay un único contexto donde se presenta toda la información, sino que se simula un entorno fragmentado y desordenado —como sucede en la vida real— con conversaciones en plataformas de mensajería, archivos en servicios compartidos y documentos en múltiples bases de datos. Es precisamente esta capacidad de navegar y sintetizar información distribuida lo que constituye uno de los mayores obstáculos para los agentes actuales.

El nuevo benchmark APEX-Agents, que mide la capacidad de los agentes de IA para realizar tareas reales de consultoría, banca de inversión y derecho, reveló que incluso los modelos más avanzados responden correctamente a menos del 25% de los casos, exponiendo una brecha crítica entre la promesa tecnológica y la practicidad en entornos profesionales.

Resultados que ponen freno a la euforia

Cuando los modelos más avanzados se enfrentaron a las preguntas del benchmark, ninguno alcanzó niveles de precisión que permitan considerarlos fiables para trabajo profesional de alto valor. Incluso los mejores resultados se limitaron a menos de una cuarta parte de respuestas correctas en pruebas de “one-shot”, donde el sistema debe responder de primera sin iteración o múltiples intentos.

Por ejemplo:

  • Un modelo líder obtuvo alrededor de 24% de precisión, apenas superando el umbral de uno de cada cuatro respuestas correctas.

  • Otros modelos bien posicionados se quedaron cerca del 18-23%, según las métricas iniciales del benchmark.

Estos porcentajes reflejan no tanto un fracaso estrepitoso como una brecha sustancial entre las expectativas creadas por la industria y las capacidades reales. Es decir, hoy por hoy, un agente de IA que trabaje de forma autónoma con el nivel de un profesional humano —capaz de interpretar, navegar y sintetizar información transversal— aún no existe en la práctica.

¿Qué tareas se volvieron el verdadero desafío?

Los tests de APEX-Agents fueron desarrollados en colaboración con expertos de mercados reales, quienes definieron qué constituye una respuesta aceptable o “lista para cliente”. Una de las claves que hacen tan exigente esta evaluación es la necesidad de integrar contextos dispersos: revisar políticas internas, cruzar regulaciones jurídicas europeas, evaluar información financiera o interpretar múltiples flujos de comunicación empresarial antes de emitir un juicio o recomendación fiable.

En uno de los ejemplos más ilustrativos, los modelos tuvieron que evaluar si una empresa podía tratar ciertos datos de producción basándose en su propia política interna y legislación de privacidad comunitaria. Es la clase de análisis que requiere no solo conocimientos técnicos, sino juicio humano y contextualización profunda, cualidades que los sistemas evaluados aún no dominan.

Más allá de la precisión: el reto del razonamiento cross-dominio

Un elemento crucial que emerge de este benchmark es el problema de los dominios múltiples: la capacidad para buscar, cruzar y sintetizar información que no se presenta de forma consolidada. El CEO de Mercor, Brendan Foody, ha señalado que este aspecto representa un escollo fundamental —mucho más desafiante que responder correctamente a preguntas aisladas— porque refleja fielmente cómo trabajan las personas en entornos profesionales, moviéndose entre herramientas, conversaciones y documentos dispersos.

Es precisamente este tipo de razonamiento multi-tool y multi-source lo que muchos modelos todavía no dominan bien. Aunque los agentes pueden “planificar” y ejecutar tareas simples, su desempeño se diluye notablemente cuando se requiere conservar contexto a largo plazo y aplicar juicios complejos que dependen de múltiples piezas de evidencia.

Comparación con otros métodos de evaluación

Algunos modelos han sido evaluados anteriormente con benchmarks más generales —como los tests de conocimiento profesional o habilidades discursivas— que ofrecen resultados más prometedores. Sin embargo, la diferencia con APEX-Agents es que este último no mide únicamente conocimiento aislado, sino la capacidad de ejecutar trabajos complejos en entornos realistas y distribuidos. En ese sentido, APEX-Agents se perfila como una herramienta más adecuada para responder a la pregunta “¿puede este sistema realmente trabajar como un profesional?”, en lugar de solo saber cosas.

El cambio tecnológico sigue avanzando… pero no al ritmo esperado

Si bien los resultados actuales parecen poco espectaculares, los autores del benchmark y expertos del sector recuerdan que los sistemas de IA han mostrado una mejora muy rápida incluso en pruebas exigentes. Según Mercor, el progreso reciente sugiere que lo que hoy parece un “interno digital” con resultados correctos una de cada cuatro veces podría convertirse en un colaborador sólido en pocos ciclos de mejora, dado el ritmo acelerado de desarrollo de modelos y arquitecturas.

Esto implica que la industria no debería descartar el potencial de los agentes de IA, sino replantear cómo se evalúa su progreso y cómo se introducen gradualmente en entornos productivos, empezando por tareas complementarias o de apoyo y no sustituyendo directamente funciones profesionales complejas como la toma de decisiones estratégicas en derecho o finanzas.

Impacto para empresas y profesionales

Para empresas que ya están explorando agentes de IA como herramientas de productividad, estos resultados son un llamado a la cautela. Si bien la automatización de tareas rutinarias o parciales —como extracción de información, clasificación de correos o generación de borradores— puede ser útil, depender de estos sistemas para trabajos con alto impacto —como asesoría legal o financiera— aún no es viable sin supervisión humana intensa.

En sectores como la consultoría o la banca de inversión, los líderes tecnológicos y de negocio tendrán que equilibrar expectativas de eficiencia con la realidad de las limitaciones actuales de los agentes, diseñando implementaciones escalonadas donde la IA actúa como asistente o amplificador de capacidades humanas, no como reemplazo.

Hacia una evaluación más madura del papel de la IA en el trabajo

El benchmark APEX-Agents plantea una cuestión más profunda sobre cómo entendemos el papel futuro de la IA en el mundo laboral: ¿debe la tecnología competir con humanos desde el primer día, o acompañarlos como herramientas cada vez más capaces? La respuesta a esta pregunta determinará no solo estrategias de adopción tecnológica, sino también políticas públicas, formación profesional y arquitecturas organizativas en empresas y administraciones.

Lo que está claro es que la narrativa simplista de “IA reemplaza trabajo del conocimiento” no se sostiene frente a pruebas que aproximan modelos a situaciones reales con múltiples variables, información distribuida y necesidad de juicio contextual. Aún quedan pasos significativos antes de que los agentes de IA puedan ser considerados una fuerza laboral autónoma, pero el debate ha ganado un nuevo marco empírico mucho más sólido gracias a benchmarks rigurosos como APEX-Agents.

Abre un paréntesis en tus rutinas. Suscríbete a nuestra newsletter y ponte al día en tecnología, IA y medios de comunicación.

Dejar un comentario