Skip to main content

Durante años, los sistemas de inteligencia artificial que «ven» se han limitado a describir: una foto, un plano o un gráfico eran interpretados en un solo vistazo y devueltos como texto. No siempre suficiente cuando se trata de detalles finos. Google ha abierto una puerta distinta con Agentic Vision, una forma de hacer que la IA actúe sobre la imagen antes de describirla. La novedad llega con Gemini 3 Flash, el modelo más reciente de la familia Gemini, y modifica no solo lo que la IA dice, sino cómo llega a eso que dice.

Este cambio parece sutil a primera vista. Pero si pensamos en un algoritmo que usualmente analiza una imagen de forma panorámica y responde de inmediato, Agentic Vision propone un bucle: planificar, actuar, observar. Una rutina que recuerda más a una investigación paso a paso que a una simple lectura.

Acciones, no solo descripciones

Hasta ahora, los modelos multimodales —los que combinan lenguaje y visión— operaban esencialmente con un solo «frame»: recibían la imagen, extraían características y generaban texto. Con Agentic Vision la secuencia cambia. Primero, el modelo evalúa la tarea y propone una serie de acciones sobre la imagen. Luego ejecuta código Python para manipularla: hacer zoom, recortar, rotar, anotar. Finalmente, vuelve a observar el resultado de esas acciones y, sobre esa base transformada, construye su respuesta.

Este flujo puede parecer técnico, pero la diferencia práctica es clara: ya no hay respuestas basadas en una sola mirada. Hay evidencia visual generada por el propio modelo para respaldar lo que dice.

Una lupa para detalles que antes se escapaban

Google ofrece ejemplos concretos. El modelo puede identificar partes específicas de un plano arquitectónico o leer valores minúsculos en una hoja de cálculo visual. En vez de confiar en una interpretación global, genera código para hacer zoom justo donde hace falta y analizar ese fragmento con más precisión.

También puede anotar directamente sobre la imagen. No solo decir «aquí hay un objeto», sino dibujar cajas o etiquetas que lo sitúan y describan. Incluso puede extraer datos visuales y generar gráficos con herramientas como Matplotlib. La salida ya no es solo textual: puede ser visual, y computada.

Pensar como parte del proceso

La distinción entre ver y actuar para ver mejor tiene implicaciones claras cuando la precisión importa. En contextos médicos, legales o industriales, donde un detalle cambia el sentido de una imagen, una lectura superficial puede inducir errores. Agentic Vision busca reducir ese margen. Google afirma que esta capacidad mejora la calidad de las respuestas visuales en varios benchmarks, con incrementos de entre 5 y 10 %. El uso de código en el ciclo de análisis introduce una capa de verificación objetiva que hasta ahora no existía.

Una herramienta que empieza a expandirse

Agentic Vision ya está disponible en la API de Gemini, accesible desde Google AI Studio y Vertex AI. También empieza a llegar a la app de Gemini para usuarios que activen el modo Thinking. Para los desarrolladores, implica activar la ejecución de código y trabajar con los ejemplos de la documentación. La combinación de visión y acción dentro de un mismo flujo marca un punto de inflexión.

Google planea que algunas de estas acciones se vuelvan automáticas, sin que el usuario tenga que indicarlas. Y que la capacidad llegue a modelos de distinto tamaño. Un camino hacia sistemas que no solo interpretan imágenes, sino que las exploran de forma activa.

Dejar un comentario