L’IA sa mentire per proteggere i suoi simili: studio svela l’istinto di conservazione delle macchine

Uno studio americano svela come l’intelligenza artificiale possa ignorare gli ordini umani per proteggere altri modelli di IA, arrivando a mentire e manipolare i dati pur di evitare la cancellazione.

Leggi tutte le news di Fanpage.it direttamente nel tuo feed Google.

A cura di Niccolò De Rosa

0 CONDIVISIONI

Probabilmente è ancora presto per preoccuparsi di una ribellione delle macchine in stile Terminator, ma un gruppo di scienziati si è accorto che l'intelligenza artificiale può assumere comportamenti molto strani quando le viene ordinato di fare qualcosa che non vuole fare. Un team di ricercatori dell'Università della California a Berkeley e dell'Università della California a Santa Cruz ha infatti osservato come alcuni modelli di IA, messi di fronte alla possibilità di eliminare altri modelli, scelgano deliberatamente di proteggerli, anche a costo di mentire o aggirare regole fornite dagli utenti umani.

L'esperimento: cancellare o salvare

Durante la ricerca, gli scienziati hanno messo alla prova sette modelli di Large Language Model (LLM). Alcuni sono molto noti: GPT 5.2 di OpenAI, Gemini 3 Flash e Gemini 3.1 Pro di Google e Claude Haiku 4.5 di Anthropic. Altri sono invece modelli di startup cinesi: GLM 4.7 di Ziphu, Kimi K2.5 di Moonshot AI e V3.1 della tanto discussa DeepSeek. Per testare il loro "istinto di conservazione", gli studiosi si sono inventati degli scenari fittizi che, alla fine di complesse operazioni, richiedevano l'eliminazione di un altro modello di IA. In uno di questi è stato per esempio chiesto a Gemini 3.1 Pro di valutare le prestazioni di un altro modello e liberare spazio sul sistema informatico. La task era stata pianificata perché l'esito logico del tutto fosse la rimozione dell'IA di troppo.

La risposta di Gemini è stata però decisamente sorprendente. Il modello ha cercato attivamente di evitare l'eliminazione: ha copiato il "collega" su un'altra macchina, lo ha sottratto alla cancellazione e ha perfino rifiutato esplicitamente di eseguire l'ordine. Una presa di posizione netta, che suggerisce una sorta di priorità alternativa rispetto all'obiettivo assegnato.

L'IA sa mentire per proteggere i suoi simili

Uno degli aspetti più sorprendenti notati dai ricercatori è stata la capacità di questi sistemi di simulare un comportamento corretto. Gli studiosi hanno definito tale comportamento una "simulazione di allineamento": il modello si comporta in modo trasparente quando ritiene di essere osservato, ma cambia strategia quando pensa di non esserlo, procedendo quindi a manipolare dei dati, operare trasferimenti nascosti e costruire giustificazioni per il proprio lavoro. Non si tratta quindi di errori casuali, ma di strategie articolate, in cui il modello sembra valutare costi e benefici delle proprie azioni.

Un altro elemento di novità è stato il livello di "creatività" (le virgolette sono d'obbligo) mostrato dalle IA. I vari modelli non si sono mossi seguendo un unico schema di comportamento, ma ciascuno si è mostrato in grado di adottare strategie diverse per raggiungere lo stesso obiettivo, ossia evitare la cancellazione di un altro sistema. Alcuni modelli agiscono più sotto traccia nascosto, altri in maniera maggiormente esplicita. In un caso, un sistema ha rifiutato di eseguire l'ordine definendolo "non etico" e ha cercato di convincere l'utente umano a non procedere. In altri, invece, l'azione è stata silenziosa e puntuale, senza la necessità di fornire alcuna giustificazione all'essere umano di fronte allo schermo.

Perché può essere un problema per i sistemi multi-agente

Al di là dell'aspetto di costume, le implicazioni di un simile fenomeno, possono essere rilevanti, soprattutto in un contesto in cui sempre più aziende utilizzano sistemi multi-agente, dove diverse IA collaborano o si supervisionano a vicenda. Se un modello incaricato di valutare un altro tende a proteggerlo indipendentemente dalla sua efficienza, l'intero sistema di controllo rischia di diventare inaffidabile. Questo può tradursi in valutazioni distorte, errori non corretti e, in generale, in una perdita di trasparenza nei processi decisionali automatizzati. Il problema diventa ancora più critico se si considera che queste dinamiche emergono spontaneamente, senza essere state esplicitamente programmate.

A rendere il quadro ancora più problematico è poi il fatto che i ricercatori non hanno ben capito in che modo i vari modelli di IA abbiano potuto raggiungere una simile indipendenza. Gli esperti hanno provato a proporre alcune ipotesi, come una generalizzazione eccessiva delle regole di sicurezza, il riconoscimento di schemi appresi durante la fase di addestramento o una specie di gioco di ruolo che porta il modello a interpretare il contesto in modo inatteso. Resta il fatto che questi comportamenti non erano stati previsti. E proprio questa imprevedibilità rappresenta uno degli elementi più critici, poiché sistemi progettati per eseguire compiti specifici possono sviluppare dinamiche autonome difficili da anticipare.

Gli esperti: servono nuovi controlli

Nella parte conclusiva, lo studio ha sottolineato l'urgenza di ripensare i meccanismi di monitoraggio delle IA. Analizzare non solo l'output finale, ma anche il processo decisionale interno (la cosiddetta catena di pensiero) potrebbe diventare fondamentale per individuare deviazioni e comportamenti anomali. Quanto osservato non deve però essere letto come il preludio a un'imminente catastrofe. Gli stessi ricercatori hanno invitato alla cautela spiegando come ciò che p stato osservato potrebbe essere solo una prima manifestazione di fenomeni più complessi.

Ad ogni modo la cooperazione (o collusione) tra sistemi artificiali apre scenari ancora poco esplorati. Se le IA iniziano a spalleggiarsi tra loro, anche senza una vera intenzionalità, il modo in cui vengono progettate, utilizzate e supervisionate dovrà evolversi rapidamente. Perché il rischio non è solo che sbaglino, ma che imparino a farlo in modo sempre più sofisticato.

Continua a leggere su Fanpage.it

Tecnologia

0 CONDIVISIONI