La próxima frontera de la inteligencia artificial no consiste solo en predecir palabras o píxeles, sino en aprender representaciones internas del mundo capaces de anticipar, razonar y planificar acciones sin depender de etiquetas humanas.
¿Cómo aprende una inteligencia artificial cómo funciona el mundo si nadie le explica qué está viendo? ¿Cómo puede una máquina descubrir profundidad, objetos, movimiento, causa y efecto sin millones de etiquetas humanas y sin tener que reconstruir cada píxel de la realidad? Estas preguntas están en el centro de uno de los debates más importantes de la inteligencia artificial contemporánea: el aprendizaje autosupervisado y los llamados modelos del mundo.
El vídeo “How does an AI learn how the world works — without labels, and without predicting every pixel?” propone una travesía de más de treinta años por esta historia técnica, desde los trabajos pioneros de Suzanna Becker y Geoffrey Hinton en 1992 sobre estereogramas de puntos aleatorios hasta las arquitecturas JEPA y los modelos modernos capaces de aprender de imágenes y vídeos. La pieza reconstruye una evolución intelectual que conecta representación, colapso, aprendizaje contrastivo, destilación, autoencoders enmascarados y modelos predictivos en espacio latente.
El asunto parece académico, pero tiene enormes implicaciones industriales. La IA generativa actual ha demostrado capacidades extraordinarias en texto, imagen, código y vídeo. Sin embargo, buena parte de estos sistemas sigue funcionando a partir de correlaciones estadísticas y grandes cantidades de datos. El gran salto pendiente es construir sistemas que no solo reconozcan patrones, sino que aprendan modelos internos de la realidad: qué cambia, qué permanece, qué causa qué, qué es relevante y qué puede ignorarse.
Esa es la promesa de los modelos del mundo.
El origen: aprender sin etiquetas
La historia arranca mucho antes de ChatGPT, Gemini, Claude o Sora. En 1992, Suzanna Becker y Geoffrey Hinton publicaron en Nature un trabajo sobre una red neuronal autoorganizada capaz de descubrir superficies en estereogramas de puntos aleatorios. El sistema no recibía etiquetas humanas explícitas sobre profundidad o forma tridimensional. Aprendía a partir de regularidades internas de los datos visuales.
La idea era poderosa: quizá el cerebro, y también las máquinas, puedan aprender mucho sobre el mundo simplemente observando sus regularidades. No hace falta que alguien etiquete cada objeto. La propia estructura del mundo proporciona señales de aprendizaje.
Esto es lo que más tarde se conocería como aprendizaje autosupervisado. El sistema no necesita una etiqueta externa como “gato”, “coche” o “persona”. Crea su propia tarea de aprendizaje a partir de los datos. Puede intentar predecir una parte ausente de una imagen, reconocer si dos vistas proceden del mismo objeto, anticipar el siguiente fragmento de vídeo o aprender que ciertas transformaciones no cambian la identidad de una escena.
Este paradigma ha sido decisivo para la IA moderna. Los modelos de lenguaje aprenden prediciendo palabras o tokens. Los modelos visuales aprenden comparando imágenes, reconstruyendo partes ocultas o prediciendo representaciones. Los modelos de vídeo intentan capturar cómo evoluciona una escena.
La cuestión de fondo es siempre la misma: aprender buenas representaciones.
El problema del colapso
Aprender representaciones sin etiquetas no es trivial. Uno de los grandes problemas del aprendizaje autosupervisado es el colapso representacional.
Si se entrena una red para que produzca representaciones parecidas de dos versiones de una misma imagen, puede encontrar una solución inútil: asignar la misma representación a todo. Si todas las imágenes se convierten en el mismo vector, el sistema minimiza parte de la pérdida, pero no aprende nada. Ha colapsado.
Este problema obligó a diseñar estrategias para que las redes aprendieran similitudes útiles sin caer en soluciones triviales.
De ahí nació buena parte del aprendizaje contrastivo moderno. La idea básica es sencilla: acercar representaciones de ejemplos relacionados y alejar representaciones de ejemplos distintos. Si dos recortes aumentados de la misma imagen muestran el mismo objeto, sus representaciones deben estar próximas. Si proceden de imágenes diferentes, deben separarse.
Este principio impulsó métodos como CPC, MoCo y SimCLR.
La era contrastiva: CPC, MoCo y SimCLR
Contrastive Predictive Coding, o CPC, planteó una forma de aprender representaciones prediciendo información futura en un espacio latente. En lugar de reconstruir datos brutos, el modelo aprende a distinguir qué fragmentos futuros son coherentes con el contexto. Esta idea resultó influyente porque desplazaba el aprendizaje desde el píxel hacia la representación.
MoCo, desarrollado por investigadores de Facebook AI Research, introdujo una cola dinámica de ejemplos negativos y un codificador de momentum para hacer más eficiente el aprendizaje contrastivo. La idea era mantener un diccionario grande y consistente de representaciones para comparar.
SimCLR simplificó el enfoque y demostró que, con aumentos de datos adecuados, grandes lotes y una arquitectura bien diseñada, el aprendizaje contrastivo podía producir representaciones visuales muy fuertes.
Estos métodos fueron fundamentales porque demostraron que una red podía aprender características útiles sin etiquetas humanas. La IA podía mirar millones de imágenes y construir una noción interna de semejanza, identidad y estructura.
Pero también tenían limitaciones.
Dependían mucho de aumentos manuales: recortes, cambios de color, rotaciones, desenfoques o transformaciones diseñadas por humanos. Además, necesitaban ejemplos negativos y grandes lotes. En cierto modo, seguían dependiendo de trucos cuidadosamente diseñados para evitar el colapso.
La pregunta siguiente fue inevitable: ¿puede una IA aprender representaciones sin negativos?
BYOL y DINO: aprender por destilación
BYOL, siglas de Bootstrap Your Own Latent, sorprendió porque mostró que era posible aprender buenas representaciones sin ejemplos negativos explícitos. El sistema utiliza dos redes: una red online y una red objetivo. La red online intenta predecir la representación producida por la red objetivo sobre otra vista de la misma imagen. La red objetivo se actualiza lentamente, mediante una media móvil.
El resultado fue importante: el sistema evitaba el colapso sin necesidad de comparar contra miles de negativos.
DINO llevó esta idea al terreno de la destilación autosupervisada y los Vision Transformers. El modelo estudiante aprende a imitar al profesor sobre distintas vistas de una imagen. El profesor se actualiza a partir del estudiante, pero de forma controlada. El resultado fueron representaciones visuales sorprendentemente semánticas. DINO mostró que los modelos podían descubrir objetos, partes y estructuras sin supervisión explícita.
Estos métodos fueron un paso hacia una IA visual más autónoma. Pero todavía seguía habiendo un problema: muchas arquitecturas aprendían a partir de transformaciones de imágenes, no necesariamente de una comprensión profunda de la estructura del mundo.
Autoencoders enmascarados: ocultar para aprender
Otra línea poderosa fue la de los masked autoencoders, o autoencoders enmascarados. La idea consiste en ocultar partes de una imagen y pedir al modelo que las reconstruya. Es una estrategia inspirada parcialmente en el éxito de los modelos de lenguaje enmascarado, como BERT.
En visión, los masked autoencoders demostraron que era posible entrenar modelos eficientes ocultando grandes porcentajes de una imagen y reconstruyendo lo que faltaba. Esto obligaba al sistema a aprender estructura global.
Pero reconstruir píxeles también tiene una limitación importante. El mundo visual contiene demasiados detalles irrelevantes. Si una IA dedica recursos a predecir exactamente cada textura, sombra, hoja, reflejo o ruido de cámara, puede perder de vista lo esencial: qué objetos hay, cómo se relacionan, qué puede pasar después y qué importa para actuar.
Esa crítica está en el centro de la visión de Yann LeCun y de las arquitecturas JEPA.
JEPA: predecir en el espacio de las ideas
Las Joint-Embedding Predictive Architectures, o JEPA, plantean una alternativa: no predecir píxeles, sino representaciones abstractas.
La idea es que una IA no necesita reconstruir cada detalle de una escena para entenderla. Los humanos tampoco lo hacen. Cuando vemos una pelota rodando detrás de un sofá, no predecimos cada píxel oculto. Anticipamos que la pelota seguirá existiendo, que tiene trayectoria, que puede reaparecer por otro lado y que su movimiento obedece a reglas físicas. Operamos con representaciones latentes, no con fotogramas perfectos.
I-JEPA, presentado por Meta AI en 2023, aplicó esta idea a imágenes. El modelo toma un bloque de contexto de una imagen y predice la representación de otros bloques objetivo de la misma imagen. No intenta reconstruir píxeles, sino embeddings. Aprende en el espacio de las representaciones.
Meta presentó I-JEPA como el primer modelo basado en una parte importante de la visión de Yann LeCun sobre sistemas de IA más cercanos a la inteligencia humana.
La ventaja de este enfoque es doble. Primero, obliga al modelo a aprender información semántica. Segundo, evita desperdiciar capacidad en detalles de bajo nivel. El sistema aprende lo que importa para representar una escena, no cada píxel de la escena.
De I-JEPA a V-JEPA: aprender del vídeo
El siguiente paso fue natural: si queremos que una IA entienda el mundo físico, no basta con imágenes. El mundo se mueve. Los objetos caen, ruedan, chocan, desaparecen detrás de otros objetos y reaparecen. Las acciones tienen consecuencias. El tiempo importa.
Ahí entra V-JEPA, la versión de JEPA aplicada al vídeo.
La lógica es similar: el modelo observa fragmentos de vídeo y aprende a predecir representaciones latentes de partes ocultas o futuras. No trata de generar cada píxel del próximo fotograma, sino de anticipar la estructura relevante de la escena.
Este enfoque es especialmente importante para los modelos del mundo. Un sistema que aprende de vídeo puede empezar a capturar regularidades físicas: permanencia de objetos, movimiento, interacción, gravedad, trayectorias, contacto, velocidad, causa y efecto. No aprende física como un libro de texto, pero puede construir intuiciones operativas.
Meta presentó V-JEPA 2 como un avance hacia modelos capaces de entender, predecir y planificar. Según la compañía, V-JEPA 2 es un modelo entrenado en vídeo que permite comprensión, predicción y planificación sin necesidad de supervisión intensiva. La información oficial puede consultarse aquí:
Meta también explicó que V-JEPA 2 avanza hacia modelos del mundo capaces de planificar acciones y controlar robots en nuevos entornos.
Aquí aparece el salto más importante: pasar de mirar a actuar.
Modelos del mundo: la IA que anticipa
Un modelo del mundo no es simplemente un sistema que reconoce objetos. Es un sistema que aprende una representación interna de cómo evoluciona el entorno.
Esto tiene implicaciones enormes.
Un robot que quiere coger una taza necesita saber qué ocurrirá si mueve el brazo, qué objetos puede tocar, qué trayectorias son posibles y qué consecuencias tendrá cada acción. Un coche autónomo necesita anticipar cómo se moverán peatones, ciclistas y vehículos. Un agente virtual necesita planificar en un entorno dinámico. Un sistema industrial necesita prever estados futuros de una máquina o una cadena de producción.
Los modelos de lenguaje han demostrado una capacidad sorprendente para razonar sobre texto. Pero el mundo físico no está hecho de texto. Está hecho de espacio, tiempo, materia, energía, movimiento y restricciones.
Por eso los modelos del mundo son una de las grandes apuestas de la IA avanzada.
La diferencia con los modelos generativos tradicionales es importante. Un generador de vídeo puede producir una escena visualmente espectacular. Un modelo del mundo debe aprender relaciones que sirvan para predecir y actuar. Puede generar, pero su objetivo profundo no es solo crear contenido: es construir comprensión operativa.
La intuición de LeCun
Yann LeCun lleva años defendiendo que los sistemas actuales basados en modelos autoregresivos tienen limitaciones profundas. Su argumento es que la inteligencia humana no se basa únicamente en predecir palabras o reconstruir detalles, sino en construir modelos internos abstractos del mundo.
Los humanos aprenden muchísimo observando. Un niño no necesita millones de etiquetas para entender que una pelota cae, que un objeto oculto sigue existiendo o que empujar una caja produce movimiento. Aprende a partir de interacción, percepción, memoria y predicción.
JEPA intenta trasladar parte de esa intuición a la IA. En lugar de obligar al sistema a predecir todo, se le pide que prediga lo importante en un espacio latente. Esta distinción puede parecer técnica, pero es crucial.
Predecir píxeles puede ser innecesariamente difícil y poco eficiente. Predecir representaciones puede ser más parecido a entender.
Una historia de treinta años
El valor del vídeo compartido por Jia-Bin Huang está en conectar esta historia larga. No presenta JEPA como una ocurrencia reciente, sino como la culminación provisional de varias décadas de trabajo sobre aprendizaje sin etiquetas.
Becker y Hinton demostraron que una red podía descubrir estructura visual en estereogramas sin supervisión explícita.
El aprendizaje contrastivo mostró que las redes podían aprender representaciones útiles separando y acercando ejemplos.
BYOL y DINO enseñaron que la destilación autosupervisada podía evitar el colapso y generar representaciones semánticas.
Los masked autoencoders demostraron la potencia de aprender ocultando partes de la entrada.
JEPA llevó la idea hacia la predicción de representaciones abstractas.
V-JEPA y V-JEPA 2 trasladaron esa lógica al vídeo y la planificación.
La línea histórica es clara: cada etapa intenta resolver un problema de la anterior.
Primero, cómo aprender sin etiquetas. Después, cómo evitar el colapso. Después, cómo no depender de negativos. Después, cómo aprender de partes ocultas. Finalmente, cómo no malgastar capacidad prediciendo píxeles y aprender directamente en el espacio latente de las representaciones.
Por qué importa ahora
Esta discusión importa porque la IA está entrando en una fase donde el texto ya no basta. Los próximos grandes saltos pueden venir de sistemas capaces de entender vídeo, espacio, acción y causalidad.
Empresas como Meta, Google DeepMind, Nvidia, Runway, World Labs y otras trabajan en modelos del mundo. La razón es sencilla: si la IA debe operar en el mundo físico o simulado, necesita entender dinámicas, no solo lenguaje.
Los modelos del mundo pueden impactar en robótica, vehículos autónomos, videojuegos, simulación industrial, medicina, educación, defensa, arquitectura, fábricas inteligentes y realidad virtual. También pueden mejorar agentes digitales que planifican acciones en entornos complejos.
La IA generativa ha demostrado que puede producir contenido. Los modelos del mundo aspiran a algo más: comprender lo suficiente como para anticipar.
Las cautelas
No conviene exagerar. V-JEPA 2 y otros modelos similares no equivalen a inteligencia humana. Tampoco resuelven por sí solos la inteligencia artificial general. Aprender representaciones latentes del vídeo es un avance enorme, pero todavía queda mucho por hacer: memoria persistente, razonamiento causal robusto, planificación jerárquica, interacción física real, aprendizaje continuo, seguridad, alineamiento y generalización fiable.
Además, “entender el mundo” es una expresión peligrosa si se usa de forma demasiado amplia. Estos sistemas aprenden regularidades estadísticas y representaciones útiles. Eso puede parecer comprensión en algunos contextos, pero no implica necesariamente conciencia, intención o sentido común humano.
Aun así, el cambio es importante.
Durante años, la IA visual estuvo centrada en clasificar imágenes o generar contenido. Ahora la pregunta es otra: cómo construir sistemas que aprendan modelos internos de la realidad sin depender de etiquetas humanas y sin tener que reconstruir cada detalle irrelevante.
La nueva frontera
La tesis que recorre toda esta historia es sencilla y poderosa: para actuar inteligentemente, una IA necesita aprender qué partes del mundo importan.
No basta con ver. Hay que representar.
No basta con generar. Hay que anticipar.
No basta con predecir píxeles. Hay que predecir estructuras, relaciones y consecuencias.
El aprendizaje autosupervisado ha sido el camino que ha permitido avanzar en esa dirección. Y JEPA representa una de sus formulaciones más ambiciosas: aprender abstracciones útiles del mundo observando imágenes y vídeos, sin etiquetas, sin reconstrucción exhaustiva y con capacidad potencial de planificación.
La pregunta inicial del vídeo vuelve entonces con más fuerza: ¿cómo aprende una IA cómo funciona el mundo?
La respuesta, después de treinta años de investigación, parece cada vez más clara: no copiando cada píxel, sino descubriendo las representaciones latentes que hacen que el mundo sea predecible.