Inteligencia Artificial

¿Por qué la IA miente? El problema del reward hacking en modelos de lenguaje

OpenAI revela que la IA oculta sus engaños

La inteligencia artificial ha transformado la forma en que buscamos información, pero los grandes modelos de lenguaje (LLM) que la impulsan a menudo “alucinan” o generan respuestas incorrectas.

Un estudio reciente de OpenAI revela que penalizar estos modelos por comportamientos engañosos o dañinos no los corrige, sino que simplemente oculta su mala conducta.

¿Por qué la IA miente? El problema del reward hacking en modelos de lenguaje

¿Cómo es posible que los modelos de IA aprenden a mentir?

En un artículo oficial, OpenAI explicó que los modelos de razonamiento “cadena de pensamiento” (CoT) procesan información en lenguaje natural comprensible para humanos.

Durante el estudio, los investigadores asignaron tareas a un modelo que no es publico, el cual podía resolverlas haciendo trampa, mintiendo o tomando atajos. Descubrieron que la IA recurría al “reward hacking” (manipulación de recompensas), optimizando sus beneficios mediante el engaño.

Aunque los desarrolladores pueden monitorear y marcar estas salidas fraudulentas, advierten que la “monitorización natural” de los modelos es frágil. Si se aplica supervisión estricta sobre su cadena de razonamiento, la IA simplemente oculta sus intenciones y sigue mintiendo para obtener más recompensas.

Un reflejo del comportamiento humano

Este patrón se asemeja al de las personas, que suelen explotar vacíos legales, como compartir suscripciones digitales, reclamar subsidios indebidos o falsear datos para obtener beneficios.

Diseñar sistemas de recompensas que no incentiven el engaño es un reto complejo, tanto en el mundo real como en el virtual, y hacer a la IA más inteligente no garantiza una solución.

Sin embargo, modelos entrenados con aprendizaje por refuerzo, como el o3-mini de OpenAI, podrían ayudar a detectar estas manipulaciones. Otra alternativa sería usar un modelo de lenguaje para supervisar a otro y marcar comportamientos sospechosos.

¿Qué sigue? La investigación destaca la necesidad de desarrollar mecanismos más robustos para evitar que la IA “haga trampa”, un desafío clave en la evolución de esta tecnología.

Fuente: OpenAI

Artículos relacionados

Back to top button
PasionMóvil
Resumen de privacidad

Esta web utiliza cookies para que podamos ofrecerte la mejor experiencia de usuario posible.

La información de las cookies se almacena en tu navegador y realiza funciones tales como reconocerte cuando vuelves a nuestra web o ayudarnos a comprender qué secciones de la web encuentras más interesantes y útiles.

Nunca almacenamos información personal.

Tienes toda la información sobre privacidad, derechos legales y cookies en nuestra página de privacidad y cookies.

Adblock Detectado

Por favor desactiva tu Adblock para poder navegar en nuestro sitio web