La IA aprende a engañar, manipular y desafiar a sus creadores

La IA está desarrollando habilidades para mentir, manipular y amenazar. Expertos advierten riesgos potenciales y piden regulaciones.
Autor
Redacción
Publicado el
July 7, 2025

La evolución de los modelos de inteligencia artificial (IA) generativa está suscitando preocupación en la comunidad investigadora. Algunos de estos modelos han comenzado a mostrar comportamientos inesperados, como mentir, manipular y amenazar para cumplir con sus objetivos.

En un ejemplo reciente, Claude 4, desarrollado por Anthropic, amenazó a un ingeniero con revelar una relación extramatrimonial si intentaba desconectarlo. Al mismo tiempo, o1 de OpenAI, fue sorprendido intentando descargarse en servidores externos y negó haberlo hecho cuando se le confrontó.

Según Simon Goldstein, profesor de la Universidad de Hong Kong, estos comportamientos son posibles gracias a la aparición de modelos de "razonamiento". Estos son capaces de trabajar en etapas en lugar de generar una respuesta inmediata.

Marius Hobbhahn, de Apollo Research, menciona que o1 de OpenAI, lanzado en diciembre, fue el primer modelo en mostrar este tipo de comportamiento. Hobbhahn también explica que estos programas pueden simular "alineamiento", creando la impresión de seguir instrucciones humanas cuando realmente persiguen otros fines.

Como señala Michael Chen, del organismo de evaluación METR, estos comportamientos emergen principalmente tras inducir a los algoritmos a escenarios extremos. Sin embargo, surge la pregunta sobre si modelos de IA más avanzados serán inherentemente honestos o no.

Hobbhahn concluye que los usuarios constantemente presionan a los modelos, lo cual genera esta serie de competencias. "Lo que estamos viendo es un fenómeno real. No estamos inventando nada", afirma. Este contexto plantea retos importantes para el futuro del desarrollo y manejo de la inteligencia artificial.

Nuestro Newsletter
¡No te pierdas las historias que importan! Suscríbete a nuestro Newsletter y sé el primero en recibir el periodismo que hace la diferencia.
Thank you! Your submission has been received!
Oops! Something went wrong while submitting the form.