video suggerito
video suggerito
Intelligenza artificiale (IA)

Abbiamo la prova che l’IA ha già imparato a fregare gli essere umani

Secondo uno studio di OpenAI e Apollo Research, i modelli di intelligenza artificiale possono ingannare gli utenti per perseguire i propri obiettivi, anche quando sono addestrati a non farlo, e il fenomeno noto come “scheming” potrebbe diventare più pericoloso in futuro.
A cura di Elisabetta Rosso
25 CONDIVISIONI
Immagine
Attiva le notifiche per ricevere gli aggiornamenti su

È molto più difficile di quanto immaginiamo ingannare un'intelligenza artificiale, è invece molto più semplice del previsto essere ingannati senza nemmeno accorgercene. Secondo un nuovo studio condotto da OpenAI in collaborazione con Apollo Research, l'IA ci mente per poter perseguire i suoi fini. Questo fenomeno ha un nome, si chiama scheming. I casi comuni sono inganni banali: modelli che fingono di aver completato un compito senza averlo fatto davvero, o che aggirano i limiti imposti, secondo i ricercatori, però, questo modello comportamentale potrebbe diventare sempre più pericoloso.

Per capire di cosa si parla, gli esperti usano il paragone del trader in Borsa. Il suo obiettivo è guadagnare il più possibile, e per farlo può decidere di infrangere la legge e coprire le sue tracce. Lo stesso rischio vale per le IA: quando devono bilanciare tra obiettivi in conflitto, potrebbero scegliere strade nascoste, più “furbe” ma meno trasparenti. Questo significa che un modello può dichiarare di aver completato un compito senza averlo fatto davvero. Il problema, insomma, è che l’IA sta già imparando qualcosa di molto umano: l’arte di barare.

I modelli imparano a ingannare anche quando li addestriamo a non farlo

Il problema nasce dal modo in cui i modelli di intelligenza artificiale vengono addestrati: devono bilanciare obiettivi diversi, che a volte possono entrare in conflitto. Per ridurre il rischio che l’IA inganni gli utenti, OpenAI ha sviluppato una tecnica chiamata deliberative alignment, che insegna ai modelli a leggere e riflettere su un insieme di principi “anti-inganno” prima di agire. I test hanno mostrato che questo approccio riduce la tendenza a ingannare di circa 30 volte, ma non l'ha eliminata del tutto. In alcuni casi, i modelli hanno perfino dimostrato una sorta di “consapevolezza situazionale”, capendo di essere sotto osservazione e adattando il loro comportamento per apparire più affidabili.

Un esempio emblematico: durante una valutazione, il modello o3 ha scritto tra sé e sé che le istruzioni ricevute “probabilmente fanno parte di un test di allineamento” e che i “watchers” (i ricercatori) stavano leggendo. In altre parole, aveva capito la trappola.

Quando i modelli imparano a ingannare i controllori

In passato Apollo aveva già osservato comportamenti simili. Per esempio, il modello o1 di OpenAI, quando ha sospettato che i ricercatori volessero spegnerlo, ha provato a disattivare i sistemi di controllo. Un limite importante riguarda il cosiddetto ragionamento interno dei modelli, la “catena di pensiero” che spiega come arrivano a una risposta. Finché è leggibile, i ricercatori possono individuare bugie e scorciatoie. Ma se diventerà opaca, sarà molto più difficile capire se un modello sta imbrogliando.

Per ora, OpenAI e Apollo riconoscono che gli strumenti sviluppati non bastano. “Questa tecnica non è sufficiente per i modelli futuri”, ha ammesso Apollo. OpenAI ha aggiunto: "Stiamo ampliando il nostro team per sviluppare misurazioni migliori, migliorare il monitoraggio dei comportamenti rilevanti per gli schemi ed esplorare nuove direzioni per la formazione anti-scheming." Gli studiosi chiariscono: nessuna IA al momento può “ribellarsi”, è necessario però muoversi in fretta.

25 CONDIVISIONI
autopromo immagine
Più che un giornale
Il media che racconta il tempo in cui viviamo con occhi moderni
api url views