Meta ha utilizado la Biblia para entrenar a su nueva Inteligencia Artificial enfocada en idiomas
La compañía Meta, antes conocida como Facebook, ha adoptado un enfoque revolucionario para el entrenamiento de sus modelos de inteligencia artificial (IA) en el reconocimiento y generación de voz en más de mil idiomas.
La Biblia como fuente de datos
Este audaz experimento ha utilizado la Biblia como su principal fuente de datos, con la esperanza de que estos algoritmos contribuyan a preservar lenguas en peligro de extinción.
El Proyecto de Meta implica la liberación de sus nuevos modelos de lenguaje al público a través de la plataforma de alojamiento de código GitHub. El objetivo es permitir a los desarrolladores trabajar en diferentes lenguajes y crear nuevas y diversas aplicaciones de voz.
Para lograr este objetivo, los nuevos modelos de Meta fueron entrenados utilizando dos conjuntos de datos. El primero consiste en grabaciones de audio del Nuevo Testamento de la Biblia en 1,107 idiomas, mientras que el segundo incluye grabaciones de audio sin etiquetar del Nuevo Testamento en 3,809 idiomas.
Complicaciones sobre los datos
En el campo de la inteligencia artificial (IA), uno de los desafíos comunes es la falta de datos. Michael Auli, científico de investigación en Meta y participante en este proyecto, explicó: “Para el inglés, contamos con conjuntos de datos abundantes y de alta calidad, así como para algunos otros idiomas, pero nos encontramos con la dificultad de no contar con suficientes datos para aquellos idiomas hablados por, digamos, 1000 personas”.
Los investigadores ahora informan que sus modelos son capaces de conversar en más de 1000 idiomas y reconocer más de 4000. Este logro es especialmente significativo si consideramos que existen alrededor de 7000 idiomas en el mundo.
Además, en comparación con los modelos de otras empresas competidoras, como OpenAI Whisper, la versión de Meta mostró una tasa de error reducida a la mitad, a pesar de cubrir 11 veces más idiomas.
¿En cuántos idiomas se ha traducido la Biblia?
Según la Sociedad Bíblica Unida, hasta la fecha, se ha traducido la Biblia completa a más de 700 idiomas. Sin embargo, este número se incrementa de manera exponencial si consideramos los libros individuales de la Biblia. Incluyendo porciones y libros completos de las Escrituras, el número de traducciones supera los 3,400 idiomas.
El Nuevo Testamento, que relata la vida, enseñanzas y obra de Jesucristo, ha sido traducido a más idiomas que el Antiguo Testamento. Hasta ahora, se ha traducido a más de 1,500 idiomas. Este esfuerzo ha impulsado continuamente la traducción en numerosos idiomas minoritarios y en peligro de extinción.
Es lógico que la traducción de la Biblia a tantos idiomas presente desafíos. Cada idioma tiene sus propias particularidades, con diferentes formas de expresar ideas y conceptos.
Esto implica que los traductores deben esforzarse en encontrar las palabras y frases adecuadas para transmitir con precisión los mensajes y significados originales de los textos bíblicos. Por lo tanto, resulta difícil considerarlo como una fuente perfecta para el entrenamiento de IA.
Posibles Desafíos con la IA
No todo es perfecto. Los científicos reconocen que sus nuevos modelos pueden cometer errores al transcribir palabras o frases, y que sus modelos de reconocimiento de voz pueden presentar un ligero sesgo en comparación con otros modelos, aunque solo sea un 0.7% más.
Chris Emezue, investigador de Masakhane, una organización que se dedica al procesamiento del lenguaje natural en idiomas africanos y que no estuvo involucrado en el proyecto, señaló al MIT que el uso de textos religiosos para entrenar los modelos puede plantear problemas. Según él, “la Biblia tiene sesgos y distorsiones significativas”.