Fei-Fei Li, una de las voces más influyentes en el desarrollo de la inteligencia artificial, ha lanzado una propuesta que apunta más allá del texto. En su artículo «From Words to Worlds», la investigadora plantea que los modelos de lenguaje —la base de sistemas como ChatGPT— han llegado a un límite evolutivo. El siguiente paso, sugiere, es dotar a las máquinas de «inteligencia espacial«: la capacidad de comprender, imaginar y actuar en entornos tridimensionales. No solo procesar palabras, sino moverse entre objetos, anticipar acciones, razonar con el cuerpo.
¿Qué significa pensar en tres dimensiones?
La mayoría de modelos actuales de IA se basan en patrones lingüísticos. Aprenden de palabras y responden con palabras. Para Li, esto limita su comprensión del mundo. Su propuesta gira en torno a los llamados «modelos de mundo», sistemas que combinen tres habilidades: generar entornos coherentes, integrar múltiples modalidades (como visión, audio o movimiento) y anticipar consecuencias de acciones en esos entornos. Es decir, no solo describir una habitación, sino moverse dentro de ella.
Crear, sentir, predecir: lo que promete la nueva IA
Esta nueva fase tecnológica podría abrir puertas a aplicaciones inéditas. Desde herramientas de diseño capaces de generar espacios 3D a partir de descripciones textuales, hasta robots que manipulen objetos con conciencia del entorno. También se vislumbran usos en simulaciones científicas o educativas, donde la IA actúe con una comprensión implícita de la física, la geometría y el cambio. La promesa es una IA que no solo responde, sino que interpreta y actúa.
Nuevos datos, nuevos desafíos
Para alcanzar esta inteligencia espacial, se requieren datos más complejos. No solo texto, sino grabaciones de video, mapas de profundidad, información sensorial o movimientos en entornos reales y simulados. También se vuelve central la interacción, cómo se comporta un objeto al ser empujado, qué pasa al cruzar una puerta, cómo cambia un entorno con el tiempo. Esta variedad de datos plantea desafíos técnicos, desde cómo integrarlos, a cómo etiquetarlos o cómo representarlos sin perder coherencia entre modalidades.
Las dudas también habitan el espacio
La visión de Li no está exenta de interrogantes. En foros técnicos, algunos señalan que el ensayo es más inspirador que concreto. No detalla cómo se resolverán los obstáculos técnicos ni qué tipo de arquitectura hará posible esa transición. Otros recuerdan que la manipulación espacial sigue siendo una de las tareas más complejas para la robótica. Además, captar entornos reales implica riesgos de privacidad, sesgos en la representación y un alto coste computacional. Crear mundos también puede significar crear cajas negras más difíciles de auditar.
Ecos de una tendencia que ya se mueve
La idea de inteligencia espacial no surge en el vacío. Investigaciones recientes han mostrado que los modelos actuales aún fallan en tareas como rotar mentalmente un objeto o estimar distancias. Al mismo tiempo, la integración de visión, lenguaje y acción es un foco creciente en laboratorios de IA y robótica. El giro hacia agentes que perciben y actúan recuerda que la inteligencia, tal como la conocemos, nunca ha sido solo verbal. Siempre ha implicado cuerpo, entorno, contexto.
Del texto al movimiento: una decisión que no es solo técnica
El paso de «palabras» a «mundos» marca un giro con implicaciones amplias. Cambia qué entrenamos, cómo evaluamos, para qué usamos la IA. Cada laboratorio, cada empresa, cada desarrollador deberá decidir si da ese salto y cómo lo hace.
Abre un paréntesis en tus rutinas. Suscríbete a nuestra newsletter y ponte al día en tecnología, IA y medios de comunicación.