Dungeons & Dragons sta mettendo alla prova l’intelligenza artificiale: i test dell’Università di San Diego

Un team di ricercatori dell’Università di San Diego sta insegnando ad alcuni modelli di intelligenza artificiale a giocare a Dungeons & Dragons. L'obiettivo non è addestrare un assistente virtuale per chi non ha compagni di gioco, ma usare il gioco come banco di prova per valutare le reali capacità dei grandi modelli linguistici di IA di gestire un lavoro complesso, strutturato e prolungato nel tempo.
L’esperimento, presentato alla conferenza NeurIPS 2025, nasce da una constatazione precisa. I Large Language Models (LLM), ossia quei sistemi di intelligenza artificiale che comprendono e generano testo simile a quello umano, come i chatbot Gemini o ChatGP, vengono sempre più spesso impiegati come assistenti artificiali per compiti complessi: pianificare, ricordare, collaborare e rispettare regole per periodi prolungati. Caratteristiche che Dungeons & Dragons incarna alla perfezione.
Un gioco come laboratorio scientifico
Per chi non conoscesse il titolo che ha appassionato generazioni di ragazzi e ragazze, facciamo un breve ripasso. Dungeons & Dragons è un gioco di ruolo da tavolo nato nel 1974 che combina i meccanismi tipici dei board game, come il lancio dei dadi per determinare il successo o l'insuccesso di un'iniziativa, a una narrazione condivisa, dove tutti i partecipanti sono chiamati a immedesimarsi e a contribuire alla storia. Il mondo di fantasia prende forma sotto la guida del Dungeon Master, narratore e regista della partita. I giocatori interpretano personaggi diversi, ciascuno con punti di forza e debolezze specifiche, chiamati a interagire con un universo vivo, popolato da mostri, enigmi e situazioni complesse, dove ogni scelta comporta un effetto sul mondo e sui suoi personaggi, proprio come in una vera avventura.
Le regole e i dadi definiscono gli esiti delle azioni, ma sono creatività, collaborazione e interpretazione a rendere ogni avventura unica. Ed è proprio per questo che il team di San Diego ha scelto di sfruttare questo mondo per mettere alla prova l'IA. "Dungeons & Dragons è un banco di prova naturale per valutare la pianificazione multi-step, il rispetto delle regole e la strategia di squadra", spiega Raj Ammanabrolu, senior author dello studio e docente all' Università di San Diego. "Poiché il gioco si sviluppa attraverso il dialogo, apre anche una via diretta all’interazione uomo-IA".
I test e le regole anti-allucinazioni
Per evitare che l'IA "inventasse" esiti o ignorasse le regole, i ricercatori hanno poi sviluppato un sistema dedicato, chiamato "D&D Agents". Si tratta di una sorta di simulatore dove i modelli sono costretti a utilizzare specifici strumenti digitali per seguire le regole del gioco e interagire con il mondo nel quale è ambientata la partita. Quando un agente voleva intraprendere un'azione, doveva chiamare una funzione specifica che calcolava il risultato in base alle regole ufficiali. Un vero e proprio motore regolamentato, pensato per ridurre le allucinazioni e costringere l'IA a confrontarsi con mappe, risorse e punti ferita.
I modelli LLM messi alla prova sono stati tre: Claude 3.5 Haiku di Anthropic, GPT-4o di OpenAI e DeepSeek-V3. Ognuno ha affrontato 27 scenari di combattimento tratti da configurazioni classiche del gioco sia contro altri agenti artificiali sia contro oltre 2.000 giocatori umani esperti. Alla fine di questa fase di test, Claude 3.5 Haiku si è dimostrato il più affidabile nel lungo periodo, seguito da GPT-4o, mentre DeepSeek-V3 ha evidenziato maggiori difficoltà, soprattutto nella gestione coerente delle regole e delle dinamiche imposte dal gioco.
Le prestazioni dell'IA peggiorano nel tempo
Uno degli elementi più rilevanti emersi dallo studio riguarda il degrado progressivo delle prestazioni. Con il passare dei turni, tutti i modelli tendono infatti a perdere precisione, dimenticando i nemici già sconfitti o ignorando effetti attivi. Errori che i ricercatori classificano come vere e proprie "allucinazioni", sintomo delle attuali difficoltà dell'IA nel mantenere una mappa mentale coerente durante interazioni estese. Un po' come un giocatore smemorato che durante la partita si dimentica alcune regole o la strategia seguita fino a quel momento per raggiungere il proprio obiettivo.
Goblin teatrali e paladini declamatori
Accanto agli aspetti tecnici, i ricercatori hanno potuto apprezzare anche comportamenti bizzarri. Immersi nella logica di gioco, i modelli hanno infatti spesso calcato la mano sulla caratterizzazione dei personaggi da loro controllati. Durante le fasi di gioco, i goblin improvvisavano provocazioni contro gli altri giocatori, i paladini interrompevano il combattimento per declamare discorsi pieni di retorica e gli stregoni assumevano comportamenti drammatici anche in situazioni per nulla concitate. Tutti comportamenti che, pur superflui dal punto di vista tattico del raggiungimento di un obiettivo, indicano un tentativo dell'IA di arricchire l'esperienza con tratti espressivi e identitari.
Le prospettive future
Per ora lo studio si è concentrato esclusivamente sugli scontri, ma i prossimi step puntano a simulare intere campagne, includendo negoziazioni, esplorazione e decisioni morali. Secondo il team, migliorare la capacità dell'IA di seguire una complessa avventura fantasy potrebbe avere ricadute concrete anche in ambiti come la pianificazione aziendale o la mediazione multiparte. Per ora, l’esperimento dice che l'intelligenza artificiale sa tirare bene i dadi, ma fatica ancora a reggere un'avventura fino in fondo. In termini da Dungeons & Dragons, il potenziale c'è, ma la prova di resistenza è appena iniziata.