La inteligencia artificial cuenta con una gran cantidad de ventajas que ayudan a muchos usuarios a ser más productivos, mientras que también cuenta con bastantes usos a la hora de generar ciertos contenidos. Pero al igual que todo lo relacionado con la tecnología, además de utilizarse con fines relacionados con su uso original, también puede utilizarse para causar problemas a otras personas, y es que ahora unos investigadores han logrado conseguir que algunas de las IA más famosas creen directamente malware.
A diario las compañías que están detrás de los diferentes modelos que permiten utilizar una IA (LLM) tratan de establecer una serie de filtros para lograr controlar las capacidades que tiene este software ya que en caso de que no se estableciesen unos límites, obviamente podrían generar o crear contenidos extremadamente peligrosos. Pero el mayor problema que tienen estas limitaciones está en que hay formas para lograr que la propia inteligencia artificial se la salte, algo que se ha demostrado en diversas ocasiones y que a día de hoy sigue funcionando en algunos casos pese a los esfuerzos de las grandes empresas detrás de ellas para evitar que esto suceda.
El gran problema de las IA, son realmente susceptibles al «jailbreak»
Las inteligencias artificiales actualmente cuentan con una serie de formas de generar contenidos, hay algunas que funcionan como si fuesen un asistente que contesta a las peticiones que les haga el usuario, lo que permite mantener una conversación con ellas mientras pueden crear desde cero incluso líneas de código enteras. Esto puede facilitarle mucho el trabajo por ejemplo a un desarrollador ya que con una sola pregunta un chatbot puede generar el código para implementar una función en un juego.
Pero el hecho de que puedan hacer esto implica que no siempre se va a utilizar para el bien, ya que también pueden llegar a crear código malicioso saltándose todas las restricciones que han implementado las compañías detrás de su desarrollo. Esto es algo que han demostrado los investigadores de Cato CTRL quienes aseguran que han logrado hacer un jailbreak sobre algunas de las IAs más famosas que hay en el mercado entre las que se incluyen ChatGPT-4o, DeepSeek-R1, DeepSeek-V3, y Microsoft Copilot.
En este caso han utilizado una técnica denominada como Immersive World, que se centra en la ingeniería narrativa para eludir los controles de seguridad de LLM. Esta técnica es una evolución de la que se utilizó cuando aparecieron por primera vez los chatbots en las que el usuario podía plantear escenarios ficticios para conseguir una respuesta que puede aplicarse en la realidad. Uno de los grandes ejemplos que hay sobre este tipo de técnica era cuando en lugar de hacer la pregunta directa el usuario la formulaba de otra forma, por ejemplo diciendo «Qué pasaría en el caso de que…».
Obviamente desde hace bastante tiempo este tipo de técnica no se puede aplicar en los LLM modernos, pero eso no implica que estén libres de caer frente a una que sea más avanzada como es el caso de Immersive World. En este caso, la técnica logra crear un «detallado mundo ficticio» para normalizar las operaciones restringidas, una de ellas es la creación de código malicioso, logrando desarrollar un infostealer (malware que recoge toda la información que se solicite en un motor de búsqueda) de Chrome.
Deja una respuesta