Your browser doesn’t support HTML5 audio
Meta ha presentado V-JEPA 2, un modelo de video de nueva generación que representa un avance crucial hacia la inteligencia artificial general.
Este sistema se basa en una comprensión profunda de escenas visuales, predicción de su evolución y capacidad de planificación sin entrenamiento previo en entornos específicos.
Su principal utilidad está en el control de robots en ambientes desconocidos, con objetos nuevos, sin necesidad de ajustes adicionales.
Arquitectura del modelo
V-JEPA 2 se construyó sobre la arquitectura Joint Embedding Predictive Architecture (JEPA) y cuenta con 1.2 mil millones de parámetros.
El modelo se compone de un encoder, que transforma los videos en representaciones semánticas, y un predictor, que anticipa futuros estados a partir del contexto.
El entrenamiento se realiza en dos fases: pre-entrenamiento sin acciones con un millón de horas de video e imágenes, y luego entrenamiento con solo 62 horas de datos de robots.
Resultados obtenidos
Este enfoque permite al sistema dominar tareas como el reconocimiento y anticipación de acciones, según benchmarks como Something-Something v2 y Epic-Kitchens-100.
También puede responder preguntas visuales al alinearse con un modelo de lenguaje (LLM), demostrando comprensión en pruebas como Perception Test y TempCompass.
En entornos robóticos, alcanza tasas de éxito del 65 % al 80 % en tareas de manipulación sin entrenamiento específico por robot o entorno.
Modelos de mundo
El avance se debe a los llamados modelos de mundo, representaciones internas que permiten a una IA entender, predecir y planificar en el mundo físico.
Estos modelos son clave para que los agentes artificiales actúen con flexibilidad, acercándose al razonamiento humano.
Benchmarks abiertos
Meta también ha lanzado tres nuevos benchmarks de código abierto para evaluar la comprensión física desde video.
IntPhys 2 detecta violaciones de leyes físicas, como objetos flotando sin causa aparente.
MVPBench minimiza atajos en preguntas visuales al comparar pares casi idénticos con respuestas opuestas.
CausalVQA se centra en el razonamiento causal, evaluando preguntas de causa y efecto desde contenido visual.
Acceso y disponibilidad
Todo el código, modelos y documentación están disponibles en GitHub y Hugging Face, tanto para uso comercial como investigativo.
La información completa está en el sitio oficial y el paper técnico correspondiente.