RedPajama es un proyecto que tiene como objetivo crear un conjunto de modelos de código abierto para el campo de la inteligencia artificial. Hoy anunciaron la finalización del primer paso de este proyecto: la reproducción del conjunto de datos de entrenamiento LLaMA de más de 1.2 billones de datos.
El auge de la Inteligencia Artificial
La inteligencia artificial está viviendo su momento Linux. Stable Diffusion demostró que el código abierto no solo puede igualar la calidad de las ofertas comerciales como DALL-E, sino que también puede conducir a una increíble creatividad a partir de la amplia participación de usuarios de todo el mundo.
Un movimiento similar ha comenzado en torno a los grandes modelos de lenguaje con el lanzamiento reciente de modelos semiabiertos como LLaMA, Alpaca, Vicuña y Koala; así como modelos totalmente abiertos como Pythia, OpenChatKit, Open Assistant y Dolly.
Se acaba de lanzar RedPajama, un esfuerzo para producir un modelo de lenguaje reproducible y totalmente abierto. RedPajama es una colaboración entre Together, Ontocord.ai, ETH DS3Lab, Stanford CRFM, Hazy Research y MILA Québec AI Institute. RedPajama tiene tres componentes clave:
Datos de preentrenamiento, que deben ser tanto de alta calidad y una amplia cobertura
Modelos base, que se entrenan a gran escala con estos datos
Modelos y datos de ajuste por instrucciones, que mejoran el modelo base para hacerlo utilizable y seguro
El punto de partida es LLaMA, que es el conjunto líder de modelos base abiertos por dos razones: Primero, LLaMA se entrenó en un conjunto de datos muy grande (1.2 billones de datos) que se filtró cuidadosamente por temas de calidad.
Segundo, el modelo LLaMA de 7 mil millones de parámetros se entrenó durante mucho más tiempo, más allá del punto óptimo de Chincilla, para garantizar la mejor calidad en ese tamaño de modelo. Un modelo de 7 mil millones de parámetros es especialmente valioso para la comunidad ya que puede ejecutarse en una amplia variedad de GPU, incluidas muchas GPU de grado consumidor.
Conjunto de datos de RedPajama
Los datos que componen RedPajama y una muestra aleatoria más pequeña y consumible se pueden descargar a través de Hugging Face. El conjunto completo de datos tiene 5TB descomprimidos en disco y 3TB para descargar comprimidos. RedPajama-Data-1T consta de siete fuentes de información:
CommonCrawl: Cinco volcados de CommonCrawl, procesados ??usando el pipeline CCNet y filtrados mediante varios filtros de calidad que incluyen un clasificador lineal que selecciona páginas similares a Wikipedia.
C4: Conjunto estándar C4
GitHub: Datos GitHub, filtrados por licencias y calidad
arXiv: Artículos científicos eliminando elementos secundarios
Libros: Un conjunto de libros
Wikipedia: Un subconjunto de páginas Wikipedia, eliminando elementos secundarios
StackExchange: Un subconjunto de sitios web populares bajo StackExchange, eliminando elementos secundarios