Skip to main content

El proyecto First Proof cerró diez problemas de matemáticas de nivel investigación y los abrió durante una semana para que la IA intentara resolverlos; Google afirma que su agente Aletheia, basado en Gemini Deep Think, ha resuelto 6 de 10 de forma autónoma, con validación de expertos (y debate puntual en uno de los casos).

La obsesión por medir la “inteligencia matemática” de la IA suele chocar con un muro: cuando los modelos aciertan, siempre queda la duda de si ya habían visto el problema (o la solución) durante su entrenamiento. Por eso First Proof se ha convertido, de golpe, en un experimento tan incómodo como útil: diez preguntas de matemáticas a nivel de investigación, aportadas por matemáticos, con soluciones preparadas y guardadas hasta el final del reto, y una ventana corta para que los sistemas de IA lo intenten. La idea no es hacer un “quiz” de olimpiada, sino simular una situación real de investigación: un problema natural, no trivial, que exige técnica, intuición y una prueba coherente.

Un benchmark hecho a conciencia: diez problemas, una semana y transparencia final

First Proof describe su primer lote (“First Batch”) como un paquete diverso de problemas que atraviesan campos distintos —desde combinatoria algebraica hasta geometría simpléctica o análisis estocástico— con pruebas que, cuando existen, tienen una longitud aproximada de unas pocas páginas. Las soluciones, según el proyecto, se publicaron al final de la ventana temporal establecida, junto con comentarios y materiales para que la comunidad pueda revisar qué ha ocurrido. Esa publicación a posteriori es clave: fija un “momento de corte” y convierte el experimento en auditable.

A diferencia de otros benchmarks, aquí el valor es doble. Primero, la organización insiste en que las preguntas no estaban “circulando” como ejercicios típicos resueltos en repositorios populares; segundo, el propio proyecto habilita un espacio de discusión comunitaria para que la validación no quede encerrada en una empresa. En otras palabras: First Proof intenta evitar el teatro de la demo y forzar un debate de investigación, con criterios de prueba y con desacuerdos cuando toca.

La pieza que sacude el tablero: Aletheia acierta 6 (con expertos detrás)

En este marco llega la confirmación que ha encendido el relato: Aletheia, un agente de investigación matemática impulsado por Gemini Deep Think, ha resuelto 6 de los 10 problemas (los números 2, 5, 7, 8, 9 y 10) dentro del tiempo permitido, “según la evaluación mayoritaria de expertos”. El artículo técnico que lo reporta añade un detalle importante: en el problema 8 no hubo unanimidad (la mayoría lo da por correcto, pero existe debate), algo que, paradójicamente, refuerza la credibilidad del proceso: no es un “todo perfecto”, sino matemáticas reales, con criterio humano y fricción académica.

El mismo trabajo remarca que publica detalles de interpretación del reto, metodología y evaluación, y que pone a disposición prompts y salidas “en bruto” (otro punto crítico: sin traza, un resultado así se parece demasiado al marketing).

Qué es Aletheia (y por qué no es “solo un modelo”)

El matiz de fondo es que el protagonista no es un gran modelo de lenguaje “a pelo”, sino un agente con un flujo de trabajo iterativo. En la línea de lo que Google explica sobre Deep Think, el sistema combina generación de candidatas, verificación y revisión, y —esto es relevante en investigación— también puede admitir que no puede resolver un problema, una propiedad que, si es real y robusta, ahorra tiempo y evita “pruebas” fantasma.

En la práctica, esta arquitectura introduce una idea que cada vez pesa más en IA: el salto no es solo “un modelo más potente”, sino un pipeline que explora, contrasta y refina. Dicho en claro: el agente intenta hacer algo parecido a lo que hace un matemático cuando avanza a base de intentos, contraejemplos, reformulaciones y comprobaciones locales.

El punto delicado: “autónomo” no significa “sin matemáticos”

El titular fácil es “la IA resuelve problemas abiertos”. La realidad operativa es más interesante: el reto evidencia que, cuando el nivel es alto, la IA puede generar una prueba plausible, pero la certificación de “esto es correcto” sigue exigiendo pericia. First Proof estructura el experimento para que la comunidad inspeccione soluciones y comentarios; y el trabajo sobre Aletheia habla explícitamente de “evaluación de expertos”.

Esto no rebaja el resultado; lo coloca en su sitio. Es la foto realista del nuevo reparto de tareas:

  • la IA acelera la producción de ideas y pruebas candidatas;
  • el matemático se desplaza hacia validación, selección, refinamiento y contextualización (¿qué aporta?, ¿es generalizable?, ¿hay una vía más elegante?).

Si este patrón se estabiliza, puede aparecer un efecto “laboratorio”: equipos pequeños con buena supervisión podrían atacar muchos más problemas en paralelo. Pero también existe el riesgo simétrico: un exceso de producción de “pruebas candidatas” que sature revisores y genere una nueva forma de ruido científico.

“Pensar más, pensar mejor”: el coste como variable explícita

Uno de los detalles más jugosos del relato es la idea de que algunos problemas requieren mucha más computación que otros: el mismo sistema puede “picar piedra” más tiempo hasta encontrar la combinación de herramientas adecuada. En el discurso de Deep Think, Google subraya que escalar computación en inferencia mejora el rendimiento en matemáticas avanzadas, y que esos patrones de escalado también se trasladan a ejercicios de nivel superior.

Esto apunta a un cambio de paradigma en cómo se “evaluará” la IA matemática: no solo qué resuelve, sino a qué coste y con qué estabilidad. Si la IA necesita cantidades enormes de computación para un subconjunto pequeño de problemas, la pregunta pasa de “¿puede?” a “¿cuándo es rentable?” y “¿para quién?”. En investigación pública, esto no es menor: el presupuesto energético y de hardware se convierte en parte de la metodología.

Por qué este episodio marca un antes y un después

First Proof no es una competición de popularidad; es un termómetro. Y el resultado “6/10” impacta por tres motivos:

  1. Desplaza la frontera: un agente puede cerrar una mayoría de problemas de nivel investigación en un formato acotado, con expertos que evalúan su corrección.
  2. Normaliza el modelo híbrido: IA para generar y explorar; humanos para verificar y convertir en conocimiento publicable.
  3. Abre el debate de gobernanza: si los agentes mejoran, ¿cómo documentamos autoría, trazabilidad, responsabilidad y reproducibilidad? ¿Cómo evitamos que el “volumen” se coma el rigor?

La lectura más sobria es esta: no estamos ante una sustitución del matemático, sino ante un cambio de escala. La IA empieza a ser capaz de producir material que merece ser revisado en terreno de investigación. Y eso, por sí solo, ya es un cambio estructural.

Dejar un comentario