Google DeepMind, la división de investigación en inteligencia artificial de Google, ha logrado avances significativos en la comprensión del mundo real por parte de sus robots.
Este progreso se atribuye a la utilización de Gemini 1.5 Pro, un modelo de IA con una ventana de contexto de 2 millones de tokens.
DeepMind Impulsa la Robótica con IA
Las ventanas de contexto son como el campo de visión de un modelo de IA. Imagina que le haces una pregunta a un asistente virtual sobre “los sabores de helado más populares”.
Un modelo con una ventana de contexto pequeña solo buscará nombres de sabores. Sin embargo, un modelo con una ventana amplia considerará la cantidad de información disponible para cada sabor y determinará la popularidad.
DeepMind aprovecha esta ventana de contexto extendida para entrenar robots en entornos reales. El objetivo es que los robots retengan detalles del entorno y asistan a los usuarios con consultas contextuales.
Por ejemplo, en un video compartido en redes sociales, se observa un robot que guía al usuario hacia una pizarra cuando este solicita un “lugar para dibujar”.
Aprendiendo de instrucciones y videos
“Gracias a la ventana de contexto de 1 millón de tokens de Gemini 1.5 Pro, nuestros robots pueden moverse dentro de un espacio utilizando instrucciones humanas, recorridos virtuales y razonamiento de sentido común”, afirmó DeepMind en una publicación.
Para lograr este avance, DeepMind combina Gemini con su propio modelo Robotic Transformer 2 (RT-2). El modelo RT-2, basado en visión-lenguaje-acción (VLA), aprende de datos web.
Utiliza la visión por computadora para procesar entornos reales y generar conjuntos de datos. Luego, la IA generativa procesa esos datos para comprender comandos contextuales y llegar a los resultados deseados.
Actualmente, DeepMind entrena robots en una categoría llamada Navegación Multimodal por Instrucciones (MIN), que abarca la exploración del entorno y la navegación guiada por instrucciones. Si las demostraciones son legítimas, esta tecnología podría impulsar significativamente el campo de la robótica.