Actualizado hace 2 minutos
A lo largo de las cinco temporadas de la serie Stranger Things, un elemento aparentemente anecdótico y ambiental se acaba demostrando como clave para que los protagonistas estén preparados para enfrentarse a sus enemigos. Su experiencia jugando a Dragones y Mazmorras les permite mantener la mente abierta y trabajar en equipo, tomar decisiones y preparar estrategias bastante mejor que los adultos que les acompañan o el resto de los no jugadores, incapaces de percibir lo que ocurre a su alrededor.
No se sabe si Raj Ammananrolu, del departamento de Ingeniería y Ciencias de la Computación de la Universidad de California, y su equipo sacaron su idea de esta serie, pero en el entorno de sus trabajos sobre inteligencia artificial (IA) se preguntaron qué pasaría si se enfrentan varios modelos de lenguaje a unas partidas de juegos de rol. En concreto, el mítico y popular Dragones y Mazmorras.
Parece que cuando la realidad da sorpresas, la IA no es tan eficaz.
Y lo que pasó es que reveló un aspecto inesperado de la IA y su desarrollo futuro.
Trabajo a largo plazo
El planteamiento del profesor Ammananrolu y su equipo es que hasta ahora las evaluaciones, las pruebas que se han hecho a los diversos modelos de lenguaje y de IA se basan en tareas cortas como contestar una pregunta, escribir un texto, crear un vídeo o una imagen o preparar código informático. Incluso cuando se le desafía con juegos como el ajedrez, el go chino o el póker, estos “tienden a estar muy limitados, con objetivos fijos y caminos bien definidos hasta la victoria y la derrota”, explica la antropóloga social Sally Davies en el diario El País.
Pero para los investigadores de California esto no era suficiente porque la vida real no es así, responder a una pregunta, resumir un texto, escribir un fragmento de código. Pero el mundo real no funciona así ya que se necesita mantener la atención durante horas, recordar lo que se dijo antes y tomar decisiones encadenadas, además de que no se trabaja solo, sino que hay cooperación, planificación, división de tareas y sorpresas. Por ello decidieron poner a jugar a ChatGPT, DeepSeek y otros modelos de lenguaje a Dragones y Mazmorras, un escenario cambiante en el que la interacción y las decisiones tienen un peso más allá de lo reglado.
Un laboratorio en un tablero de rol
Este experimento y sus resultados se han presentado en la conferencia NeurIPS y publicado en OpenReview.
La idea era usar un juego de rol como entorno controlado para evaluar la planificación en múltiples pasos, cumplimiento de reglas y coherencia narrativa. En Dragones y Mazmorras no basta con llegar al final, por el camino hay que recordar habilidades, gestionar recursos, coordinarse con un equipo y sostener un personaje a lo largo del tiempo.
Los modelos se conectaron a un motor de juego con las reglas, los mapas y los recursos necesarios. Las campañas se centraron en el combate, con los sistemas asumiendo distintos roles: jugadores, aliados y criaturas enemigas. Además también hubo partidas contra unos 2.000 jugadores humanos experimentados, lo que permitió comparar el rendimiento de la IA frente a decisiones humanas en escenarios complejos.
Al comienzo del juego, los modelos trabajaban sin contratiempos. Gestionaban acciones disponibles, anunciaban movimientos y seguían las reglas básicas. Pero a medida que la partida se alargaba, la coherencia de las decisiones se perdía. Algunos sistemas tendían a repetir acciones, olvidaban decisiones ya tomadas turnos atrás o se salían del personaje.
Lo sorprendente es que estos fallos no eran solo errores que puede cometer un jugador, indicaban una limitación más seria, no podían mantener un estado mental coherente durante interacciones largas.
Lo que un juego predice del futuro de la IA
Aunque estos errores, estos olvidos puedan parecer anecdóticos, para una inteligencia artificial cumplir con las tareas, las misiones de Dragones y Mazmorras es tan real como gestionar la seguridad de una planta química, coordinar y controlar en tiempo y espacio la distribución de mercancías o interactuar durante horas con personas. En todos estos casos el problema es el mismo, no perderse, mantener presentes la memoria, el contexto y la estrategia.
Ammananrolu y el resto de los investigadores ya están preparados para extender las pruebas con campañas completas, con planteamientos más amplios en cuanto a tiempo y objetivos simultáneos. De esta manera buscan estresar aún más a los modelos de lenguaje para llevarlos hasta el límite de su capacidad.
De momento, la conclusión es clara, la IA resulta impresionantemente eficaz en labores relativamente cortas o con reglas y objetivos bien acotados y definidos. A partir de ahora se trata de conseguir que cuando una tarea se alargue en el tiempo y las interacciones se acumulen, no se olvide de cuál es su labor, que no se despiste ni se desvíe.
Si esto ocurre en un juego de rol y el participante, humano o IA, pierde o falla en su misión, el tablero permite empezar de cero otra vez sin más consecuencias, pero en el mundo real las consecuencias pueden ser definitivas y llegar a causar daños irreparables que vayan más allá del protagonista.