DeepMind y Gemini 1.5 Pro abren nuevas puertas a la robótica

12 julio, 2024

Google DeepMind, la división de investigación en inteligencia artificial de Google, ha logrado avances significativos en la comprensión del mundo real por parte de sus robots.

Este progreso se atribuye a la utilización de Gemini 1.5 Pro, un modelo de IA con una ventana de contexto de 2 millones de tokens.

DeepMind Impulsa la Robótica con IA

Las ventanas de contexto son como el campo de visión de un modelo de IA. Imagina que le haces una pregunta a un asistente virtual sobre “los sabores de helado más populares”.

Un modelo con una ventana de contexto pequeña solo buscará nombres de sabores. Sin embargo, un modelo con una ventana amplia considerará la cantidad de información disponible para cada sabor y determinará la popularidad.

DeepMind aprovecha esta ventana de contexto extendida para entrenar robots en entornos reales. El objetivo es que los robots retengan detalles del entorno y asistan a los usuarios con consultas contextuales.

Por ejemplo, en un video compartido en redes sociales, se observa un robot que guía al usuario hacia una pizarra cuando este solicita un “lugar para dibujar”.

Ver esta publicación en Instagram

Una publicación compartida por Google DeepMind (@googledeepmind)

Aprendiendo de instrucciones y videos

“Gracias a la ventana de contexto de 1 millón de tokens de Gemini 1.5 Pro, nuestros robots pueden moverse dentro de un espacio utilizando instrucciones humanas, recorridos virtuales y razonamiento de sentido común”, afirmó DeepMind en una publicación.

Para lograr este avance, DeepMind combina Gemini con su propio modelo Robotic Transformer 2 (RT-2). El modelo RT-2, basado en visión-lenguaje-acción (VLA), aprende de datos web.

Utiliza la visión por computadora para procesar entornos reales y generar conjuntos de datos. Luego, la IA generativa procesa esos datos para comprender comandos contextuales y llegar a los resultados deseados.

Actualmente, DeepMind entrena robots en una categoría llamada Navegación Multimodal por Instrucciones (MIN), que abarca la exploración del entorno y la navegación guiada por instrucciones. Si las demostraciones son legítimas, esta tecnología podría impulsar significativamente el campo de la robótica.

Etiquetas

12 julio, 2024

DeepMind Impulsa la Robótica con IA

Aprendiendo de instrucciones y videos

Mejora la seguridad de tu Rabbit R1, nueva actualización disponible

Bixby se renovará con IA ¿Competirá con Siri y Google Assistant?

Artículos relacionados

¿Robots con salario? El polémico pronóstico de Nvidia sobre el futuro laboral

China aprueba 10 nuevos reactores nucleares con inversión millonaria

Alerta en Europa, apagón masivo paraliza a España y Portugal

¿Cómo es vivir con un chip cerebral? La verdad detrás de Neuralink y su primer paciente

Adblock Detectado