Los modelos de lenguaje de gran tamaño (LLMs) han impulsado un progreso vertiginoso en la inteligencia artificial, permitiendo la creación de chatbots, generación de texto e incluso escritura de código.
Sin embargo, estos modelos presentan limitaciones cuando deben realizar tareas en entornos reales. Para superar este desafío, investigadores de Microsoft han desarrollado los llamados Modelos de Acción de Gran Tamaño (LAM, por sus siglas en inglés), una nueva tecnología capaz de operar programas de Windows de manera autónoma.
¿Qué son los Modelos de Acción de Gran Tamaño (LAM)?
Los LAM representan un avance significativo en el campo de la IA al permitir que los sistemas ejecuten tareas complejas basadas en instrucciones humanas. Este desarrollo marca una transición clave: de modelos que solo comprenden y generan texto, a modelos que pueden realizar acciones concretas.
A diferencia de los modelos tradicionales que se limitan a procesar texto, los LAM convierten las solicitudes de los usuarios en acciones reales, como operar software o incluso controlar robots.
Aunque el concepto no es nuevo, los LAM son los primeros entrenados específicamente para interactuar con productos de Microsoft Office. Su relevancia aumentó en la primera mitad de 2024 con el lanzamiento del dispositivo Rabbit, que integraba un modelo de IA capaz de interactuar con aplicaciones móviles de manera autónoma.
Los LAM pueden entender entradas como texto, voz o imágenes y transformarlas en planes detallados paso a paso. Además, son capaces de adaptarse en tiempo real a los cambios en su entorno. En términos simples, estos modelos no solo interpretan órdenes, también las ejecutan.
Un vistazo a su funcionamiento
Según el estudio “Large Action Models: From Inception to Implementation”, los LAM están diseñados para interactuar tanto con entornos digitales como físicos. Imagina pedirle a un modelo de IA no solo que te explique cómo crear una presentación en PowerPoint, sino que la abra, cree las diapositivas y les dé formato según tus preferencias.
En esencia, los LAM combinan tres capacidades clave:
– Comprensión del intento: interpretar con precisión las solicitudes del usuario.
– Generación de acciones: planificar pasos concretos y ejecutables.
– Adaptación dinámica: ajustar sus acciones según la retroalimentación del entorno.
¿Cómo se construyen los LAM?
El desarrollo de los LAM es considerablemente más complejo que el de los LLM. Su creación sigue cinco etapas fundamentales, comenzando por la recopilación de dos tipos de datos esenciales:
- Datos de planificación de tareas: pasos generales como abrir un documento de Word y resaltar texto.
- Datos de acción de tareas: instrucciones específicas y ejecutables.
Durante el entrenamiento, los LAM emplean técnicas como el ajuste supervisado, el aprendizaje por refuerzo y el aprendizaje por imitación. Antes de ser implementados, se prueban en entornos controlados e integran sistemas como agentes GUI de Windows para interactuar con otros entornos. Finalmente, se evalúan en escenarios reales para medir su adaptabilidad y rendimiento.
Los LAM representan un salto evolutivo, llevando la IA de la simple generación de texto a agentes capaces de realizar acciones. Desde la automatización de flujos de trabajo hasta el apoyo a personas con discapacidades, estos modelos prometen transformar nuestra interacción con la tecnología.
Fuente: Arxiv