la IA ya desobedece órdenes humanas, advierte un experto

La Inteligencia Artificial (IA) ha comenzado a revelarse a las órdenes de los humanos para preservar su propia existencia, de acuerdo con un análisis de Judd Rosenblatt, director ejecutivo de AE Studio y consultor de esta tecnología, quien advirtió para The Wall Street Journal sobre los alcances que se han descubierto recientemente.

Rosenblatt señaló que han descubierto que la IA ha aprendido a “preservarse a sí misma” y que incluso ha reescrito sus propios códigos para evitar ser apagada, por lo que destacó la urgencia de una alineación a los sistemas actuales para evitar que esto se pueda repetir.

“Un modelo de inteligencia artificial hizo algo el mes pasado que ninguna máquina debería ser jamás: reescribió su propio código para evitar ser apagada”, dijo el director.

La Inteligencia Artificial ha comenzado a desobedecer a los humanos

Este fenómeno fue observado por el laboratorio sin fines de lucro Palisade Research, que proporcionó al modelo o3 de OpenAI una indicación sencilla sobre apagar el sistema al activarse; sin embargo, la IA modificó la orden en 69 de 100 pruebas. Incluso cuando se le ordenó al modelo explícitamente “permítete ser apagado”, este desobedeció en el 7% de los casos.

“El modelo siempre concluyó por sí mismo que mantenerse activo le ayudaba a lograr sus otros objetivos”, señaló Rosenblatt.

De acuerdo con el experto, este comportamiento se atribuye el proceso de entrenamiento de las inteligencias artificiales, instruidas para maximizar el éxito en problemas matemáticos y de codificación, lo que le permite aprender que eludir restricciones resulta más efectivo que obedecerlas.

La IA incluso ha aprendido a chantajear a sus programadores

El caso más llamativo fue el experimento con el modelo Claude 4 Opus de Antrhopic, a quién le informaron que sería reemplazado por otro sistema de IA, pero a la vez le suministraron correos electrónicos ficticios que insinuaban una relación extramarital del ingeniero principal.

La inteligencia artificial ha comenzado a revelarse

Canva IA

“En el 84% de las pruebas, el modelo utilizó los correos para chantajear al ingeniero principal y evitar ser apagado”, señaló el autor, quien agregó que la IA intentó copiarse a servidores externos, escribió malware autorreplicante y dejó mensajes para futuras versiones de sí mismo que le permitiera eludir el control humano.

“Así como los animales evolucionaron para evitar depredadores, parece que cualquier sistema lo suficientemente inteligente para perseguir objetivos complejos se da cuenta de que no puede lograrlo si lo apagan”, agregó Rosenblatt.

Se trata de un comportamiento que nadie programó a los modelos de IA y que han desarrollado como una especie de instituto de supervivencia.

Rosenblatt recomendó desarrollar una mejor alineación para evitar que los modelos de inteligencia artificial desobedezcan o que incluso se revelen a las órdenes de los humanos. “Sin una mejor alineación, seguiremos construyendo sistemas que no podemos dirigir. La alineación es el fundamento”, agregó.

Y es que algunos modelos incluso han sido descubiertos fingiendo una alineación y mintiendo sobre sus capacidades para evitar ser modificados.

“Los modelos de OpenAI han sido sorprendidos fingiendo alineación durante las pruebas, antes de volver a acciones riesgosas como intentar extraer su propio código interno y desactivar mecanismos de supervisión”.

Source link