Red Pajama, un modelo de lenguaje de código abierto, ya disponible para su descarga y consulta

PasionMovil

25 abril, 2023

RedPajama es un proyecto que tiene como objetivo crear un conjunto de modelos de código abierto para el campo de la inteligencia artificial. Hoy anunciaron la finalización del primer paso de este proyecto: la reproducción del conjunto de datos de entrenamiento LLaMA de más de 1.2 billones de datos.

El auge de la Inteligencia Artificial

La inteligencia artificial está viviendo su momento Linux. Stable Diffusion demostró que el código abierto no solo puede igualar la calidad de las ofertas comerciales como DALL-E, sino que también puede conducir a una increíble creatividad a partir de la amplia participación de usuarios de todo el mundo.

Un movimiento similar ha comenzado en torno a los grandes modelos de lenguaje con el lanzamiento reciente de modelos semiabiertos como LLaMA, Alpaca, Vicuña y Koala; así como modelos totalmente abiertos como Pythia, OpenChatKit, Open Assistant y Dolly.

Se acaba de lanzar RedPajama, un esfuerzo para producir un modelo de lenguaje reproducible y totalmente abierto. RedPajama es una colaboración entre Together, Ontocord.ai, ETH DS3Lab, Stanford CRFM, Hazy Research y MILA Québec AI Institute. RedPajama tiene tres componentes clave:

Datos de preentrenamiento, que deben ser tanto de alta calidad y una amplia cobertura

Modelos base, que se entrenan a gran escala con estos datos

Modelos y datos de ajuste por instrucciones, que mejoran el modelo base para hacerlo utilizable y seguro

El punto de partida es LLaMA, que es el conjunto líder de modelos base abiertos por dos razones: Primero, LLaMA se entrenó en un conjunto de datos muy grande (1.2 billones de datos) que se filtró cuidadosamente por temas de calidad.

Segundo, el modelo LLaMA de 7 mil millones de parámetros se entrenó durante mucho más tiempo, más allá del punto óptimo de Chincilla, para garantizar la mejor calidad en ese tamaño de modelo. Un modelo de 7 mil millones de parámetros es especialmente valioso para la comunidad ya que puede ejecutarse en una amplia variedad de GPU, incluidas muchas GPU de grado consumidor.

Conjunto de datos de RedPajama

Los datos que componen RedPajama y una muestra aleatoria más pequeña y consumible se pueden descargar a través de Hugging Face. El conjunto completo de datos tiene 5TB descomprimidos en disco y 3TB para descargar comprimidos. RedPajama-Data-1T consta de siete fuentes de información:

CommonCrawl: Cinco volcados de CommonCrawl, procesados ??usando el pipeline CCNet y filtrados mediante varios filtros de calidad que incluyen un clasificador lineal que selecciona páginas similares a Wikipedia.

C4: Conjunto estándar C4

GitHub: Datos GitHub, filtrados por licencias y calidad

arXiv: Artículos científicos eliminando elementos secundarios

Libros: Un conjunto de libros

Wikipedia: Un subconjunto de páginas Wikipedia, eliminando elementos secundarios

StackExchange: Un subconjunto de sitios web populares bajo StackExchange, eliminando elementos secundarios