Los nuevos modelos de IA de Google permiten a los robots realizar tareas como hacer papiroflexia y empaquetar objetos
Google DeepMind ha presentado dos modelos de IA diseñados para transformar la interacción de los robots con el entorno: Gemini Robotics y Gemini Robotics-ER. Basados en la arquitectura de Gemini 2.0, los modelos buscan dotar a los robots de habilidades motoras y una capacidad de adaptación que nunca habíamos visto, permitiéndoles llevar a cabo tareas que hasta ahora eran solo humanas.
Visión, lenguaje y acción en un solo modelo
Gemini Robotics introduce un modelo integral de visión-lenguaje-acción, que combina la comprensión del lenguaje natural con la capacidad de procesar información visual y ejecutar movimientos. Esto permite a los robots realizar tareas de forma autónoma. Por ejemplo, un robot puede recibir la orden de «recoger el plátano y colocarlo en la cesta», identificando correctamente el objeto y realizando la acción sin intervención humana.
También se extiende a tareas más complicadas, como plegar figuras de origami o empaquetar productos en bolsas sin dañarlos. Esto representa un salto respecto a modelos anteriores como RT-2, que se limitaban a movimientos previamente entrenados.
‘Embodied Reasoning’: mejor razonamiento espacial
Por otro lado, Gemini Robotics-ER se enfoca en el razonamiento encarnado, ofreciendo a los robots una comprensión espacial más avanzada. Esto facilita la integración de este modelo en sistemas de control robóticos existentes y mejora la capacidad de los robots para interactuar de forma segura y precisa con su entorno. Esta característica es importante para tareas que requieren un alto grado de manipulación y precisión.
Robots preparados para lo inesperado
Una de las características más destacadas de los modelos es su capacidad de generalización. Según DeepMind, Gemini Robotics duplica el rendimiento en pruebas de generalización, por delante de otros modelos de última generación. Esto significa que los robots pueden adaptarse a nuevas tareas y situaciones no previstas durante su entrenamiento, para entornos dinámicos e impredecibles.
Abre un paréntesis en tus rutinas. Suscríbete a nuestra newsletter y ponte al día en tecnología, IA y medios de comunicación.