Amazon y su Inteligencia Artificial que supera a GPT3.5 de OpenAI

Este recién anunciado modelo de lenguaje de Amazon está preparado para destacar, ya que supera a muchas otras iniciativas y particularmente al modelo GPT-3.5 (una versión más reciente que la que dá vida a ChatGPT) superándolo en un 16% (75,17%) en el benchmark ScienceQA.

Dicho benchmark consiste en una colección significativa de respuestas anotadas a preguntas científicas multimodales, incluyendo más de 21,000 preguntas de opción múltiple multimodales (MCQ). Los modelos de lenguaje grandes (LLM) pueden desempeñarse de manera efectiva en tareas que requieren razonamiento complejo gracias a los recientes avances tecnológicos. La técnica de “Chain-of-thought” (CoT) prompting se utiliza, la cual implica crear etapas lógicas intermedias para demostrar cómo realizar una tarea.

No obstante, la mayoría de las investigaciones recientes de CoT examinan únicamente la modalidad del lenguaje, y los investigadores suelen utilizar el paradigma Multimodal-CoT al buscar el razonamiento de CoT en la multimodalidad. Se requieren múltiples entradas, incluyendo el lenguaje y los visuales, para la multimodalidad.

La IA de Amazon

Aunque las entradas provengan de múltiples modalidades como el lenguaje y lo visual, Multimodal-CoT divide los problemas con más de un paso en procesos de pensamiento intermedios que conducen a la respuesta final. Antes de pedir a los LLM que realicen CoT, uno de los métodos más populares para realizar Multimodal-CoT es agregar datos de varias modalidades en una sola modalidad.

Sin embargo, este enfoque tiene algunas desventajas, como la pérdida de información al convertir datos entre formatos. Los modelos de lenguaje pequeños que han sido ajustados pueden realizar el razonamiento CoT en la multimodalidad fusionando varias partes del lenguaje y lo visual. No obstante, el problema fundamental con esta estrategia es que estos modelos de lenguaje tienen la predisposición a generar patrones de razonamiento alucinatorios que afectan significativamente la inferencia de la respuesta.

Para mitigar estos errores, los investigadores de Amazon desarrollaron Multimodal-CoT, que incorpora características visuales en un marco de entrenamiento diferente. Este estudio sobre cómo difiere el pensamiento CoT de otros tipos de razonamiento es el primero de su tipo.

Según los investigadores de Amazon, el método tiene un rendimiento de vanguardia en el benchmark ScienceQA, superando la precisión de GPT-3.5 en un 16% y superando claro está, el rendimiento humano. Por el momento no se sabe cuándo lanzará Amazon su IA al público, pero esperemos que sea pronto para que realmente podamos ver las ventajas de su nuevo modelo respecto al popular ChatGPT que hoy ya casi todos hemos probado en algún momento.