Surge una nueva Inteligencia Artificial pero entrenada con información de la Deep Web: DarkBERT
Los principales grandes modelos de lenguaje (LLM), como GPT-4/3.5, Bard, LlaMa, Alpaca, Vicuna o Claude, se alimentan de una vasta cantidad de textos disponibles en la “web abierta”, es decir, aquellos sitios web que cualquiera puede acceder mediante un navegador convencional.
Un nuevo nicho para estudiar
Este material es sumamente extenso y ofrece una base sólida para trabajar; sin embargo, no representa la totalidad del contenido disponible en Internet. Sin embargo, hay alguien que ha dirigido su atención hacia la Dark Web al considerar el entrenamiento de su propio LLM.
La Dark Web es ese oscuro rincón de la Red repleto de foros para cibercriminales y hackers, así como de mercados de drogas y armas, actividades de apuestas, pornografía de legalidad dudosa, entre otros y esto también puede servir para entrenar a una Inteligencia Artificial como ChatGPT.
Sin embargo, no hay motivo para entrar en pánico, ya que los responsables de este nuevo modelo de lenguaje, llamado DarkBERT, son un equipo de investigadores de Corea del Sur, pertenecientes a la Korea Advanced Institute of Science & Technology (KAIST) y la empresa S2W. Su principal objetivo es estudiar exhaustivamente a los cibercriminales.
Problemas de interpretación de lenguaje
Dado que los cibercriminales no suelen cooperar mucho cuando se trata de ser investigados, nada mejor que capacitar a una IA para que pueda “pensar” como ellos.
O, al menos, para detectar de forma automatizada los sitios web que albergan los textos típicos utilizados para vender ransomware o datos confidenciales. Los investigadores afirman que la extrema diversidad léxica y estructural de las comunicaciones en la Dark Web siempre ha planteado un desafío a la hora de emprender su estudio.
No es el primer modelo de lenguaje con esta misión, ya que en 2019 Facebook utilizó ROBERTa con fines similares, aunque su enfoque era más amplio que el de DarkBERT. Sin embargo, en esta industria, cuatro años representan un largo período de tiempo.
Conexiones e investigación mediante Tor
Por cierto, la similitud en los nombres no es casual, ya que ambos se basan en BERT, un modelo de IA lanzado por Google en 2018 con el objetivo de lograr una mejor comprensión de nuestras consultas en su motor de búsqueda.
Los creadores de DarkBERT tuvieron que generar dos grandes conjuntos de datos. Uno de ellos contenía datos “en bruto” sin editar, mientras que el otro fue preprocesado para descartar elementos como información personal difundida en foros de filtraciones, con el fin de proteger la privacidad.
Además, explican que utilizaron un rastreador web automatizado que se conecta directamente a Internet a través de la red Tor.
DarkBERT se enfoca principalmente en la investigación académica, por lo tanto, el modelo y el conjunto de datos se compartirán con otros equipos de investigadores, pero no se lanzarán para uso generalizado por el público.