La revolución en la transcripción de Audio a Texto llega con Whisper de OpenAI

La inteligencia artificial sigue dando de qué hablar con un nuevo e interesante lanzamiento

PasionMovil

17 noviembre, 2023

En el más reciente evento DevDay de OpenAI, las miradas se centraron en el lanzamiento de GPT-4 Turbo y los GPTs personalizados, acompañados por su respectiva “Tienda de Apps” sobre Inteligencia Artificial.

Aunque estos acapararon la atención mediática y del usuario, hubo un participante subestimado que ahora, días después, merece una evaluación más profunda.

Hablamos de Whisper V3, la Inteligencia Artificial de transcripción de audio a texto, una joya oculta en comparación con los titulares de GPT-4. Y a diferencia de ChatGPT o DALL·E, Whisper V3 es open source y ya está disponible de forma gratuita en línea a través de plataformas como Hugging Face o Replicate.

Pronto se espera que cuente con diversos clientes de escritorio, como Buzz, que ya opera con Whisper V2.

Un antes y un después con Whisper de OpenAI

Whisper de OpenAI ha marcado un antes y un después en la transcripción de audio a texto. Hasta hace un año, las herramientas gratuitas presentaban numerosos errores, pero Whisper V2 logró convencer a muchos usuarios.

Con la llegada de Whisper V3, se percibe que es el ChatGPT de la transcripción de audio a texto, aunque con la ventaja de ser completamente gratuito. Los desarrolladores de software seguramente comenzarán a implementarlo en sus aplicaciones en un futuro cercano.

La versatilidad de Whisper V3 lo hace ideal tanto para tareas simples de transcripción como para aplicaciones más complejas en el ámbito de la asistencia por voz.

Lo que nos ofrece Whisper V3

Este modelo ha sido entrenado con más de un millón de horas de audio etiquetado y más de 4 millones de horas de audio pseudoetiquetado. Comparado con su predecesor, Whisper V3 ha logrado reducir los errores entre un 10 y un 20%. En español, su tasa de error está por debajo del 5%, destacándose como uno de los idiomas mejor comprendidos por este modelo.

Una característica sobresaliente de Whisper V3 es su capacidad multitarea, permitiendo reconocer y traducir varios idiomas. Además, puede identificar automáticamente los cambios de idioma en una misma conversación, brindando una versatilidad excepcional.

OpenAI ha puesto a disposición modelos de distintos tamaños para Whisper V3, desde versiones pequeñas con menos de 1 GB de VRAM hasta el modelo grande, con 1.550 millones de parámetros y requisitos de unos 10 GB de VRAM. Esto ofrece flexibilidad a los usuarios, adaptándose a diversas aplicaciones y necesidades.