Voicebox, la nueva Inteligencia Artificial de Meta que lleva el texto a la voz

Conoce el nuevo desarrollo de Meta AI bautizado como Voicebox. Este modelo, según anunció Mark Zuckerberg, es capaz de llevar a cabo diversas tareas relacionadas con la generación del habla, como la edición, el muestreo y la estilización, incluso sin haber sido entrenado específicamente para estas funciones.

Creación y edición de sonidos en otro nivel

Voicebox utiliza un enfoque de aprendizaje en contexto para lograr estas capacidades asombrosas. Una de las características más destacadas de Voicebox es su capacidad para producir fragmentos de audio de alta calidad y realizar ediciones en grabaciones previas.

Esto implica la habilidad de eliminar ruidos no deseados o corregir pronunciaciones, sin alterar el contenido y el estilo originales. Además, este modelo es capaz de generar habla en seis idiomas distintos, lo que demuestra su versatilidad y su enfoque multilingüe.

En un futuro cercano, se espera que modelos generativos de inteligencia artificial, como Voicebox, desempeñen una amplia gama de funciones.

Estas incluyen la capacidad de proporcionar discursos naturales a asistentes virtuales y personajes en metaversos, permitir a las personas con discapacidad visual escuchar mensajes escritos en sus estilos preferidos y brindar a los creadores herramientas de edición de audio para la producción de videos, entre muchas otras aplicaciones innovadoras.

Este avance representa un hito significativo en la investigación de la inteligencia artificial generativa y promete abrir un abanico de nuevas posibilidades en el ámbito del audio. Además, seguramente inspirará a otros investigadores a continuar desarrollando y perfeccionando esta tecnología revolucionaria.

Principales características de Voicebox

Aprendizaje mediante contexto

Los modelos generativos a gran escala, como GPT y DALL-E, han revolucionado la investigación en procesamiento de lenguaje natural y visión por computadora, logrando generar textos e imágenes de alta calidad. Estos modelos no solo destacan por su fidelidad, sino también por su capacidad generalista para resolver tareas que no se les han enseñado explícitamente.

Sin embargo, en el ámbito de los modelos generativos de habla, aún existe un desafío en cuanto a la escala y la capacidad de generalización de tareas. En el caso de Voicebox, se trata de un modelo de flujo coincidente no autorregresivo diseñado para completar fragmentos de habla en base a un contexto de audio y texto.

Para su entrenamiento, se utilizaron más de 50,000 horas de habla sin filtrar ni mejorar, situando a este modelo en una etapa inicial en comparación con otros avances en el campo. Al igual que GPT, Voicebox es capaz de llevar a cabo diversas tareas mediante el aprendizaje en contexto.

Sin embargo, su ventaja radica en su capacidad para condicionar también en el contexto futuro. Esta herramienta puede utilizarse para la síntesis de texto a habla en uno o varios idiomas, sin necesidad de entrenamiento previo.

Salir de la versión móvil