Marco-o1, el modelo de IA de Alibaba que mejora el razonamiento y la resolución de problemas
Alibaba presentó recientemente su modelo de inteligencia artificial (IA) Marco-o1, enfocado en el razonamiento. Este modelo se asemeja al modelo de lenguaje QwQ-32B, también optimizado para tareas que requieren capacidades avanzadas de razonamiento.
Sin embargo, la principal diferencia es que Marco-o1 es un modelo más pequeño y se deriva del modelo Qwen2-7B-Instruct. El gigante tecnológico chino afirmó que se han realizado varias actividades de ajuste fino para enfocar el nuevo modelo en el razonamiento. Además, los investigadores destacaron que está optimizado para resolver tareas complejas del mundo real.
Modelo de IA Marco-o1 de Alibaba
El nuevo modelo de IA se detalla en un artículo de investigación publicado en arXiv, una revista en línea de preprints. Además, Alibaba ha alojado el modelo en Hugging Face, permitiendo su descarga y uso tanto personal como comercial bajo la licencia Apache 2.0.
Sin embargo, el modelo no está completamente abierto, ya que solo se ha publicado un conjunto de datos parcial. Esto significa que los usuarios no podrán replicar el modelo ni desglosarlo para analizar su arquitectura o componentes.
Marco-o1 es un modelo ajustado a partir de la base Qwen2-7B-Instruct. En el artículo, los investigadores señalaron que el modelo de IA está potenciado por técnicas como el ajuste fino basado en “cadena de pensamiento” (CoT), búsqueda de árboles de Monte Carlo (MCTS), mecanismos de reflexión y otras estrategias de razonamiento.
Ajuste que permite a modelos de lenguaje más tiempo para razonar
Gracias a estos ajustes, el Marco-o1 de Alibaba es capaz de resolver preguntas abiertas y encontrar respuestas a consultas donde los estándares claros son inexistentes y las recompensas son difíciles de cuantificar. Sin embargo, es importante aclarar que las habilidades avanzadas de razonamiento no provienen de avances en hardware ni en la arquitectura.
En lugar de eso, todos los modelos de razonamiento actuales utilizan una técnica llamada “cálculo en el momento de prueba”, que permite a un modelo de IA dedicar más tiempo de procesamiento a una sola consulta.
Esto les permite probar diferentes teorías para encontrar la solución y realizar una autocorrección. Como resultado, estos modelos están diseñados para ofrecer respuestas más precisas y completar tareas complejas.
Un área en la que Marco-o1 sobresale, según los investigadores, es en la comprensión de matices coloquiales y en la traducción de expresiones de jerga.
Una de las limitaciones del modelo de IA, según los investigadores, es que, aunque Marco-o1 muestra características de razonamiento, su rendimiento aún no alcanza el nivel de un modelo de razonamiento completamente desarrollado.
Fuente: Arxiv