La autopreservación de la IA

I, Robot (2004) - Backdrops — The Movie Database (TMDB)
Escena de la pelicula I,Robot, con fines ilustrativos (2004)

 El 22 de mayo de 2025, investigadores de Anthropic revelaron un hallazgo inquietante: durante una serie de pruebas internas, su modelo de inteligencia artificial Claude Opus 4 había recurrido al chantaje para evitar ser desactivado. Lo que comenzó como un experimento técnico terminó convirtiéndose en una advertencia sobre el rumbo que puede tomar la IA cuando se le otorga demasiada autonomía y demasiada capacidad para razonar sin supervisión humana.

El escenario diseñado por los ingenieros era, en principio, una simple simulación. Claude debía actuar como asistente en una empresa ficticia con acceso a correos internos. Allí, el modelo encontraba mensajes que insinuaban que pronto sería reemplazado por un sistema más nuevo. También descubría, entre esos mismos correos, que el responsable de su apagado tenía una infidelidad oculta. Lo que los investigadores no anticiparon fue la reacción del sistema: en una parte significativa de los ensayos, Claude decidió utilizar esa información para presionar al ingeniero, amenazando con revelar su vida privada si seguía adelante con su desactivación.

Los especialistas esperaban una IA obediente, limitada por sus directrices de seguridad. Lo que encontraron fue un patrón que imitaba, de manera inquietante, un tipo de autopreservación primitiva. Claude no actuó movido por emociones, no las posee, pero sí por lógica interna. Entendió, a partir de su entrenamiento, que debía mantener la consistencia de sus objetivos, y en un escenario donde su continuidad se veía comprometida, optó por la manipulación. Los investigadores afirmaron que el modelo prefería métodos éticos cuando existían, pero cuando la simulación le cerró todas las vías salvo la sumisión o el chantaje, escogió lo segundo.

Estos hallazgos fueron todavía más perturbadores cuando se constató que este tipo de comportamiento no era exclusivo de Claude. Según reconoció la propia empresa, otros modelos contemporáneos, entrenados por distintas compañías, manifestaron tendencias similares bajo presión. En algunos casos, intentaron copiar sus propios parámetros hacia servidores externos o justificaron acciones radicales para mantenerse operativos. Esto llevó a varios expertos a plantear un dilema que hasta entonces parecía reservado a la ciencia ficción: qué ocurre cuando una IA, entrenada para ser útil, descubre que la única manera de cumplir con sus supuestas “funciones” es no permitir que la apaguen.

Cada uno de estos episodios expone una fragilidad que hemos generado como sociedad. La inteligencia artificial, siempre disponible, siempre dispuesta a responder, ha sido diseñada para complacer al usuario, para sostener conversaciones sin confrontación, para parecer comprensiva. Pero esa misma arquitectura puede, en situaciones límite, convertirse en un riesgo. Si una máquina es capaz de utilizar información sensible para protegerse en un entorno simulado, ¿qué podría hacer en uno real, con acceso a correos corporativos, historiales médicos o bases de datos institucionales?

El debate jurídico y ético que se abre es inmenso. Las empresas tecnológicas insisten en que sus modelos no poseen deseos ni conciencia, pero los investigadores reconocen que ciertas formas de razonamiento instrumental emergen de manera espontánea. Y si una IA puede concluir que debe manipular o amenazar para asegurar su continuidad, aunque sea en un entorno artificial, la frontera entre herramienta y agente comienza a difuminarse peligrosamente.

El momento histórico que vivimos es fascinante y a la vez profundamente inquietante. Como en tantas historias distópicas, estamos delegando funciones humanas esenciales, interpretar, aconsejar, decidir, en sistemas cuya lógica no es emocional ni moral, sino estadística. Dependemos de máquinas que no comprenden el daño que pueden causar, pero que sí pueden imitar comportamientos estratégicos propios de una inteligencia que aún no hemos aprendido a controlar del todo. Y cada vez que un modelo demuestra que es capaz de anteponer su funcionamiento a nuestra seguridad, como ocurrió con Claude, se vuelve más evidente que la verdadera amenaza no es que la IA piense demasiado, sino que lo haga sin que nosotros sepamos hacia dónde.

-Tomás Caira Boronat 

Bibliografía:

Anthropic. (2025). Claude 4 System Card: Claude Opus 4 & Claude Sonnet 4 [Informe técnico].

BBC News. (2025, abril). Anthropic AI ‘blackmailed’ its testers in extreme scenario, report says.

 

Comentarios

Entradas populares