OpenAI utilizó YouTube sin permiso para entrenar a Whisper

8 abril, 2024

OpenAI, el rival de Google en el campo de la inteligencia artificial (IA), ha sido acusado de utilizar vídeos de YouTube para entrenar a sus modelos sin autorización. La investigación del New York Times revela que la empresa habría usado más de un millón de horas de vídeos para entrenar a Whisper, su IA que convierte audio en texto.

¿Llegarán a los tribunales o habrá otro tipo de arreglo?

Esta práctica, aunque controvertida, no es nueva. Las principales compañías de IA ya han agotado los datos públicos y privados disponibles para entrenar sus modelos. OpenAI, al quedarse sin datos en 2021, decidió recurrir a YouTube, a pesar de los riesgos legales.

La empresa argumenta que su uso de los vídeos se ajusta al “uso razonable”, ya que solo se utilizó una pequeña parte del contenido total de la plataforma. Sin embargo, Google no está de acuerdo y ha calificado la acción como “una zona gris” de la ley.

El caso podría llegar a los tribunales, pero también existe la posibilidad de que ambas compañías lleguen a un acuerdo. Lo que sí es seguro es que este incidente pone de relieve la necesidad de encontrar soluciones más sostenibles para el entrenamiento de modelos de IA.

Posibles opciones para evitar estos problemas

Crear datos sintéticos: Diseñados artificialmente para la IA.
Utilizar modelos de entrenamiento que no requieran tantos datos.
Sin embargo, estas alternativas aún no han demostrado ser completamente efectivas. Se estima que, para 2028, la demanda de datos para IA superará la capacidad de generarlos.
El futuro de la IA dependerá de encontrar un equilibrio entre la ética, la legalidad y la necesidad de alimentar a estos modelos con información.

Otros puntos destacados de la investigación

OpenAI habría utilizado herramientas automatizadas para descargar y transcribir los vídeos de YouTube. El propio presidente de OpenAI, Greg Brockman, habría estado involucrado en la operación.

Meta también se habría quedado sin datos para entrenar sus modelos de IA y ha barajado diferentes opciones para obtener más.

Este caso abre un debate importante sobre el uso de datos públicos para el desarrollo de la IA. ¿Es ético utilizar contenido protegido por derechos de autor sin autorización? ¿Cómo se puede garantizar un acceso equitativo a los datos para todas las empresas?

Etiquetas

8 abril, 2024

¿Llegarán a los tribunales o habrá otro tipo de arreglo?

Posibles opciones para evitar estos problemas

Otros puntos destacados de la investigación

Tesla presentará un robotaxi en agosto de este mismo año

Inestabilidad en procesadores Intel, ¿qué está pasando?

Artículos relacionados

Funcionarios británicos ahorraron media hora de trabajo al día tras usar Copilot

¿Puede una IA crear una “religión” y dominar el mercado cripto? Esta es la descripción de Truth Terminal

DeepSeek actualiza IA R1 presionando a rivales como OpenAI

IA busca ganar a toda costa incluso haciendo trampa en el ajedrez

Adblock Detectado