Meta ha presentado su último avance en inteligencia artificial (IA), un modelo que es tanto multimodal como multilingüe. Denominado SeamlessM4T, este nuevo sistema tiene la capacidad de realizar traducciones de voz a texto y de texto a texto en casi un centenar de idiomas distintos.
Nuevo sistema multilingüe de Meta
Pero eso no es todo, ya que también brilla en las interpretaciones de voz a voz y de texto a voz, demostrando su dominio en la identificación de alrededor de cien lenguajes de entrada y treinta y cinco de salida.
A diferencia de los sistemas de interpretación convencionales que dividen el proceso en múltiples canales, este nuevo desarrollo de Meta promete una experiencia más fluida y eficiente en el ámbito de la traducción.
SeamlessM4T se erige sobre los cimientos de previos hitos en la traducción de la compañía, tales como No Language Left Behind, SpeechMatrix y Massively Multilingual Speech.
Los ingenieros de la empresa se abocaron a rediseñar el conjunto de herramientas de secuenciación ‘Fairseq’, con el propósito de alumbrar sistemas más ligeros que fueran capaces de manejar una mayor cantidad de información en diversos formatos de manera simultánea.
El proceso de entrenamiento del modelo involucró una asombrosa cantidad de decenas de miles de millones de oraciones de texto de acceso público, además de 4 millones de fragmentos de voz extraídos de la web.
Cabe destacar que toda la información empleada en esta fase carece de derechos de autor, procediendo de fuentes abiertas o con licencia. Los investigadores amalgamaron ambos tipos de contenido para dar vida a SeamlessAling, el conjunto de datos de entrenamiento que nutrió a SeamlessM4T.
Miles de millones de datos para entrenar esta IA
En el núcleo de este repositorio yacen alineaciones de 443,000 horas de voz con sus respectivos textos, junto a la creación de 29,000 horas de alineaciones de voz a voz, marcando así un paso significativo en la evolución de la tecnología de traducción.
Según el equipo de Meta, al someterlo a pruebas de robustez, el sistema demuestra un rendimiento superior ante ruidos de fondo y variaciones en la entonación al ejecutar tareas de conversión de voz a texto, logrando mejoras promedio del 37 % y 48 %, respectivamente, en contraste con el más reciente modelo de última generación de la compañía.
La gigante tecnológica asegura que SeamlessM4T posee la capacidad de discernir cuándo un usuario integra dos o más idiomas en una sola oración. De forma automática, el modelo transcribe cada fragmento para una traducción parcial o completa, incluso abordando el reconocimiento de sesgos de género en los idiomas analizados.
SeamlessM4T represents a significant breakthrough in the field of speech-to-speech & speech-to-text by addressing the challenges of limited language coverage & a reliance on separate systems.
More details ?? https://t.co/BIQk48gDcc pic.twitter.com/A21CWQ4kiu
— Meta AI (@MetaAI) August 23, 2023
El modelo se respalda con un sistema que identifica la posibilidad de que una traducción “pueda fomentar el odio, la violencia, blasfemias o el abuso”.
El propósito es detectar si la traducción resultante exhibe indicios de toxicidad que no estaban presentes en el material original, reflejando así el compromiso de garantizar la integridad y seguridad en las interpretaciones generadas.
SeamlessM4T no sigue el modelo de desarrollo de código abierto. En su lugar, ha sido lanzado bajo la licencia Creative Commons CC BY-NC 4.0. Esta licencia permite a los investigadores, desarrolladores y usuarios en general replicar, redistribuir y transformar el producto, siempre y cuando se otorgue el crédito debido a Meta.
Por ahora no se centrará en fines comerciales
Sin embargo, es importante tener en cuenta que el modelo no está disponible para fines comerciales. Este enfoque resulta notable, especialmente en consideración de que la empresa ha estado lanzando una variedad de modelos de inteligencia artificial de código abierto en los últimos meses.
Los sistemas de traducción lingüística desempeñan un papel fundamental para empresas como Meta, cuyos servicios tienen un alcance global.
Mediante la refinación de estas capacidades, el imperio de redes sociales liderado por Mark Zuckerberg podrá proporcionar una experiencia más personalizada y dotada de herramientas de moderación de contenido más efectivas en todos sus productos.
La marcada distinción entre su enfoque de código abierto a gran escala y la elección de la licencia Creative Commons CC BY-NC 4.0 para SeamlessM4T refleja la evolución de la estrategia empresarial en torno a la inteligencia artificial.
Las mejoras a esta herramienta irán tomando forma de manera progresiva, posibilitando, en última instancia, la creación de nuevos productos o la integración de funciones adicionales en el ecosistema de Meta. Estas iniciativas se desarrollarán con condiciones claras que permitan la generación de ingresos de manera sostenible.