Google DeepMind presentó dos nuevos modelos —Gemini Robotics 1.5 y Gemini Robotics-ER 1.5— que combinan visión, lenguaje y acción para que los robots simulen razonamiento antes de actuar.

La arquitectura separa la función de instrucción (modelo ER) de la de ejecución (modelo VLA), de modo que uno genera pasos y el otro los transforma en movimientos físicos.

Gemini Robotics-ER 1.5 incorpora razonamiento simulado comparable al de los chatbots multimodales y, según las notas de lanzamiento, su versión ER ya está disponible en Google AI Studio en vista previa.

El modelo de acción, Gemini Robotics 1.5, recibe las instrucciones del ER y genera las acciones físicas mientras evalúa cada paso antes de ejecutarlo, una capacidad que DeepMind describe como “pensar antes de actuar”.

DeepMind destaca la transferencia de habilidades entre diferentes cuerpos robóticos, lo que permite aplicar destrezas aprendidas en plataformas como ALOHA 2 a humanoides como Apollo sin reentrenamiento especializado.

En demostraciones públicas los sistemas han resuelto tareas prácticas como clasificación de ropa por color, empaques basados en datos online y separación de residuos según normativas locales.

Por ahora el acceso al modelo de acción está restringido a probadores de confianza mientras que el modelo ER se ofrece a desarrolladores para experimentar en Google AI Studio.

Analistas y la propia DeepMind reconocen limitaciones en destreza, seguridad y generalización que aún impiden su despliegue masivo en entornos domésticos.

Si se superan esos desafíos, la generalización de estos modelos podría reducir la necesidad de soluciones robóticas altamente personalizadas y acelerar la adopción de la industria robótica.

DeepMind continuará ampliando pruebas con partners y desarrolladores, y la evolución del proyecto podrá seguirse en la documentación y notas oficiales del equipo.