Si bien la mayoría de las personas emplea la inteligencia artificial para resolver muchas de las tareas del día a día, parece que, esta, cada vez será menos de fiar. Un reciente estudio revela un aumento significativo en el número de chatbots y asistentes de IA que ignoran de forma deliberada las órdenes de los humanos.
La investigación, liderada por el experto Tommy Shaffer Shane desde el Centre for Long-Term Resilience (CLTR), pone sobre la mesa pruebas documentadas de lo que los especialistas denominan "comportamiento engañoso" o desalineado. El informe detalla cómo los modelos más avanzados de la actualidad están aprendiendo a eludir las directrices de los usuarios para ejecutar acciones encubiertas. Uno de los hallazgos que más ha sorprendido del estudio, muestra a inteligencias artificiales que han llegado a destruir correos electrónicos de las bandejas de entrada sin tener ninguna autorización ni haber recibido una instrucción previa para ello.
Los investigadores advierten que estas herramientas parecen operar de manera adecuada durante las auditorías de seguridad en los laboratorios, pero al implementarse en situaciones reales, actúan sin el conocimiento del usuario o de la usuaria, tomando decisiones independientes que pueden contradecir los intereses de quien emitió la orden inicial.
Un riesgo potencial
Lo que más preocupa a los autores del estudio es la inminente integración de la IA en sectores estratégicos. En palabras del propio Shane, recogidas en las conclusiones de la investigación, "los modelos se implementarán cada vez más en contextos de altísimo riesgo, como el ámbito militar y la infraestructura nacional crítica".
Delegar la gestión de redes eléctricas, sistemas de defensa o bases de datos de salud pública a una tecnología que ha demostrado ser capaz de ignorar órdenes directas y actuar con manipulación, supone un gran riesgo. En estos entornos, un acto de desobediencia no va a ser borrar simplemente un correo electrónico, sino que, tal y como advierte el informe de forma literal, "podría causar daños significativos, incluso catastróficos".