Hace pocos meses, OpenAI lanzó ChatGPT al público en general, situando al chatbot dotado con Inteligencia Artificial en el centro de la conversación mundial e impulsando discusiones sobre cómo dicha tecnología puede transformar los negocios, la educación,el campo laboral y otras cuestiones.
Poco después, los gigantes de Internet, Google y Microsoft, seguido de otras empresas en China, presentaron sus propios chatbots para demostrar al público que su llamada “IA generativa” (tecnología capaz de crear texto conversacional, visuales y más) también ya estaba lista para uso general, pero recientemente ha sido Amazon quien ha estado también presente con el lanzamiento un nuevo modelo de lenguaje con el objetivo de superar a GPT3.5.
Este recién anunciado modelo de lenguaje de Amazon está preparado para destacar, ya que supera a muchas otras iniciativas y particularmente al modelo GPT-3.5 (una versión más reciente que la que dá vida a ChatGPT) superándolo en un 16% (75,17%) en el benchmark ScienceQA.
Dicho benchmark consiste en una colección significativa de respuestas anotadas a preguntas científicas multimodales, incluyendo más de 21,000 preguntas de opción múltiple multimodales (MCQ). Los modelos de lenguaje grandes (LLM) pueden desempeñarse de manera efectiva en tareas que requieren razonamiento complejo gracias a los recientes avances tecnológicos. La técnica de “Chain-of-thought” (CoT) prompting se utiliza, la cual implica crear etapas lógicas intermedias para demostrar cómo realizar una tarea.
No obstante, la mayoría de las investigaciones recientes de CoT examinan únicamente la modalidad del lenguaje, y los investigadores suelen utilizar el paradigma Multimodal-CoT al buscar el razonamiento de CoT en la multimodalidad. Se requieren múltiples entradas, incluyendo el lenguaje y los visuales, para la multimodalidad.
La IA de Amazon
Aunque las entradas provengan de múltiples modalidades como el lenguaje y lo visual, Multimodal-CoT divide los problemas con más de un paso en procesos de pensamiento intermedios que conducen a la respuesta final. Antes de pedir a los LLM que realicen CoT, uno de los métodos más populares para realizar Multimodal-CoT es agregar datos de varias modalidades en una sola modalidad.
Sin embargo, este enfoque tiene algunas desventajas, como la pérdida de información al convertir datos entre formatos. Los modelos de lenguaje pequeños que han sido ajustados pueden realizar el razonamiento CoT en la multimodalidad fusionando varias partes del lenguaje y lo visual. No obstante, el problema fundamental con esta estrategia es que estos modelos de lenguaje tienen la predisposición a generar patrones de razonamiento alucinatorios que afectan significativamente la inferencia de la respuesta.
Para mitigar estos errores, los investigadores de Amazon desarrollaron Multimodal-CoT, que incorpora características visuales en un marco de entrenamiento diferente. Este estudio sobre cómo difiere el pensamiento CoT de otros tipos de razonamiento es el primero de su tipo.
Según los investigadores de Amazon, el método tiene un rendimiento de vanguardia en el benchmark ScienceQA, superando la precisión de GPT-3.5 en un 16% y superando claro está, el rendimiento humano. Por el momento no se sabe cuándo lanzará Amazon su IA al público, pero esperemos que sea pronto para que realmente podamos ver las ventajas de su nuevo modelo respecto al popular ChatGPT que hoy ya casi todos hemos probado en algún momento.
Via Analyticsinsight