Skip to main content

World Labs, el laboratorio fundado por la reconocida investigadora Fei-Fei Li, presenta Marble, un modelo generativo que no crea textos ni imágenes, sino entornos tridimensionales completos. Diseñado para entender y predecir mundos simulados, Marble representa un giro significativo en cómo las máquinas procesan la realidad, no solo identifican objetos o interpretan imágenes, sino que aprenden a anticipar consecuencias físicas como si intuyeran la lógica de una escena en movimiento en el desarrollo de modelos de inteligencia artificial.

Un simulador que aprende solo

Marble parte de una premisa sencilla pero potente, entrenar una red neuronal para que observe entornos 3D interactivos y aprenda, a partir de ahí, las leyes internas que los rigen. Para ello, no utiliza datos textuales ni etiquetas. Se alimenta exclusivamente de secuencias de video generadas en simuladores y videojuegos con físicas realistas.

Durante el entrenamiento, Marble no recibe reglas explícitas. Aprende viendo. Cada video incluye las consecuencias de acciones específicas, como lo que sucede cuando una pelota cae por una rampa o cuando un objeto empujado choca contra una pared dentro del entorno, como empujar una caja, activar una palanca o cambiar la pendiente de una rampa. El modelo asocia patrones, anticipa resultados y, eventualmente, puede simular por sí mismo qué debería ocurrir si se empuja un objeto o si cambia el terreno.

Mover una caja, entender el mundo

El propósito de Marble no es crear videojuegos ni películas, aunque sus resultados puedan parecer cinemáticos. Su objetivo es construir un «modelo del mundo», una herramienta que permita a las máquinas simular y anticipar dinámicas físicas de su entorno, algo crucial en campos como la robótica autónoma, la realidad virtual o la planificación de tareas complejas. Es, en esencia, una IA con intuición física. Esta capacidad podría permitir que una máquina tome decisiones basadas no en reglas preprogramadas, sino en una comprensión emergente del entorno.

En su versión actual, Marble puede generar entornos tridimensionales en los que los objetos interactúan de forma coherente, y donde se puede intervenir en tiempo real. Si se cambia la posición de una caja, el modelo ajusta el entorno para reflejar el impacto: sombras, colisiones, movimientos. Todo sin motores de juego externos.

Datos sintéticos, realismo emergente

Marble se entrena con datos sintéticos, entornos simulados en los que cada variable está controlada. Esto permite una precisión quirúrgica durante el aprendizaje, como ajustar con exactitud la respuesta de un objeto a una fuerza o calibrar la trayectoria de un movimiento sin que intervengan factores aleatorios o mal definidos, es decir, una capacidad de ajustar el modelo con gran detalle y sin interferencias externas.

Además, evita los problemas asociados al uso de datos del mundo real, como el ruido o la falta de contexto. El resultado es un modelo que no necesita millones de ejemplos. Basta con un entorno bien definido y muchas horas de simulación. Según World Labs, esto reduce el coste de entrenamiento y abre la puerta a modelos más eficientes y escalables.

Máquinas que razonan con el entorno

Lo que distingue a Marble no es sólo su capacidad de generar mundos, sino de razonar dentro de ellos. Puede responder preguntas como «¿qué ocurre si la pelota rueda hacia la rampa?» y mostrar la respuesta en forma de simulación. Este tipo de inteligencia situacional podría ser clave para futuras aplicaciones en robótica, interfaces adaptativas o entornos de entrenamiento virtual. La apuesta por modelos que aprenden del entorno sin instrucciones recuerda a los sistemas de aprendizaje auto-supervisado que han revolucionado la visión por computador. Pero en lugar de reconocer patrones en imágenes estáticas, Marble los modela en acción.

La carrera por el modelo del mundo

Empresas como Google DeepMind y Meta también exploran los llamados world models. Lo singular de Marble es su enfoque minimalista, nada de texto, nada de etiquetas, solo video sintético y aprendizaje emergente. Queda por ver si esta línea logrará integrar razonamiento abstracto con percepción física. Pero el rumbo está marcado, las inteligencias artificiales ya no sólo completan frases. Empiezan a imaginar el escenario, colocan las piezas y lanzan la primera ficha de dominó.

Abre un paréntesis en tus rutinas. Suscríbete a nuestra newsletter y ponte al día en tecnología, IA y medios de comunicación.

Dejar un comentario