Voicebox, la nueva Inteligencia Artificial de Meta que lleva el texto a la voz

PasionMovil

19 junio, 2023

Conoce el nuevo desarrollo de Meta AI bautizado como Voicebox. Este modelo, según anunció Mark Zuckerberg, es capaz de llevar a cabo diversas tareas relacionadas con la generación del habla, como la edición, el muestreo y la estilización, incluso sin haber sido entrenado específicamente para estas funciones.

Creación y edición de sonidos en otro nivel

Voicebox utiliza un enfoque de aprendizaje en contexto para lograr estas capacidades asombrosas. Una de las características más destacadas de Voicebox es su capacidad para producir fragmentos de audio de alta calidad y realizar ediciones en grabaciones previas.

Esto implica la habilidad de eliminar ruidos no deseados o corregir pronunciaciones, sin alterar el contenido y el estilo originales. Además, este modelo es capaz de generar habla en seis idiomas distintos, lo que demuestra su versatilidad y su enfoque multilingüe.

En un futuro cercano, se espera que modelos generativos de inteligencia artificial, como Voicebox, desempeñen una amplia gama de funciones.

Estas incluyen la capacidad de proporcionar discursos naturales a asistentes virtuales y personajes en metaversos, permitir a las personas con discapacidad visual escuchar mensajes escritos en sus estilos preferidos y brindar a los creadores herramientas de edición de audio para la producción de videos, entre muchas otras aplicaciones innovadoras.

Este avance representa un hito significativo en la investigación de la inteligencia artificial generativa y promete abrir un abanico de nuevas posibilidades en el ámbito del audio. Además, seguramente inspirará a otros investigadores a continuar desarrollando y perfeccionando esta tecnología revolucionaria.

Principales características de Voicebox

Método Flow Matching: Meta IA ha desarrollado un enfoque llamado “Flow Matching” para abordar la tarea de relleno de discurso guiada por texto.
Escala de datos: Voicebox ha sido entrenado con una vasta cantidad de datos, lo que mejora su capacidad de aprendizaje en contexto y su desempeño en diversas situaciones.
Variedad de estilos: Este modelo puede generar resultados en una amplia gama de estilos, permitiendo la creación de clips de audio de alta calidad y adaptados a diferentes necesidades.
Disponibilidad limitada: Debido a posibles riesgos de mal uso, tanto el modelo como su código no están actualmente disponibles para el público en general.
Transparencia y responsabilidad: Meta IA se esfuerza por encontrar un equilibrio entre compartir su investigación con la comunidad de IA y garantizar la responsabilidad en el uso de sus modelos, priorizando la transparencia en sus acciones.

Aprendizaje mediante contexto

Los modelos generativos a gran escala, como GPT y DALL-E, han revolucionado la investigación en procesamiento de lenguaje natural y visión por computadora, logrando generar textos e imágenes de alta calidad. Estos modelos no solo destacan por su fidelidad, sino también por su capacidad generalista para resolver tareas que no se les han enseñado explícitamente.

Sin embargo, en el ámbito de los modelos generativos de habla, aún existe un desafío en cuanto a la escala y la capacidad de generalización de tareas. En el caso de Voicebox, se trata de un modelo de flujo coincidente no autorregresivo diseñado para completar fragmentos de habla en base a un contexto de audio y texto.

Para su entrenamiento, se utilizaron más de 50,000 horas de habla sin filtrar ni mejorar, situando a este modelo en una etapa inicial en comparación con otros avances en el campo. Al igual que GPT, Voicebox es capaz de llevar a cabo diversas tareas mediante el aprendizaje en contexto.

Sin embargo, su ventaja radica en su capacidad para condicionar también en el contexto futuro. Esta herramienta puede utilizarse para la síntesis de texto a habla en uno o varios idiomas, sin necesidad de entrenamiento previo.