Un metodo per riconoscere gli audio falsi, anche nelle chiamate: il test del progetto FUN-Media del Polimi

Fanpage.it ha anilizzato il funzionamento di FUN-Media, il nuovo progetto per il rilevamento dei deepfake audio realizzato dal ’Image and Sound Processing Lab del Politecnico di Milano. Abbiamo creato un audio fake per capire se effettivamente veniva riconosciuto come tale.

I deepfake non parlano soltanto attraverso immagini e video. Sempre più spesso utilizzano una voce. E proprio per questo possono risultare ancora più insidiosi. Una telefonata che sembra arrivare da un figlio, da un nipote o da un collega può oggi essere generata artificialmente con un realismo tale da mettere in difficoltà anche chi è abituato a stare in guardia dalle truffe online. Proprio per questo il rilevamento di questi audio sintetici, sempre più credibili e difficili da distinguere da quelli autentici, rappresenta quindi uno dei fronti più delicati nella lotta contro le cosiddette tecniche di social engineering (come phishing e spoofing) che puntano a ottenere la fiducia della vittima per poi estorcerle soldi o preziosi dati personali. Su questo problema si concentra la sfida FUN-Media, un nuovo progetto di ricerca europeo a cui ha partecipato l'Image and Sound Processing Lab (ISPL) del Politecnico di Milano, che ha portato alla realizzazione di un sistema che sfrutta l'intelligenza artificiale per smascherare i contenuti audio fake.

Per capire come funziona questo sistema abbiamo intervistato Paolo Bestagini, professore del Dipartimento di Elettronica, Informazione e Bioingegneria del Politecnico di Milano, che, insieme al collega Stefano Tubaro, ha coordinato il team di ricercatori coinvolti nel progetto. "I video e le immagini contraffatte sono visivamente immediati, quindi le persone hanno sviluppato una maggiore consapevolezza della loro esistenza. Al contrario, clonare una voce oggi è estremamente semplice e i risultati sono paradossalmente più credibili di un video", spiega Bestagini a Fanpage.it.

Prima dell'incontro abbiamo anche messo alla prova lo strumento inviando al team un audio che abbiamo generato con l'intelligenza artificiale. Nulla di particolarmente elaborato – abbiamo usato uno dei tanti tool presenti sul web che permettono di personalizzare voci e testi – ma è stato utile per vedere l'architettura realizzata da FUN-Media all'opera. Il file è stato subito identificato come "fake". Nel video allegato a fine articolo è possibile vedere il test completo.

FUN-Media: come si scoprono gli audio realizzati dall'IA

Per affrontare questa minaccia, il progetto FUN-Media non si affida a un singolo algoritmo. L'idea alla base del progetto è quella di costruire un ecosistema di detector specializzati che collaborano tra loro. "È un classico gioco tra guardie e ladri", osserva Bestagini. I sistemi di clonazione vocale migliorano continuamente e un detector efficace oggi potrebbe non esserlo più domani. Per questo il progetto utilizza un vero e proprio arsenale di strumenti, ciascuno progettato per individuare anomalie differenti.

La maggior parte di questi detector sfrutta tecniche di machine learning e deep learning addestrate su grandi quantità di dati. I ricercatori hanno utilizzato corposi dataset composti da voci, sia autentiche che sintetiche, provenienti da parlatori di età, sesso e lingue differenti. Le registrazioni reali vengono spesso estrapolate da audiolibri di pubblico dominio letti da professionisti, mentre le tracce artificiali vengono generate con dei sintetizzatori vocali online.

Uno degli aspetti più innovativi del progetto riguarda però quella che gli addetti ai lavori chiamano "l'esplicabilità" (explainability) dei risultati. "In ambito forense, presentarsi davanti a un giudice dicendo che una traccia è falsa solo ‘perché lo dice la macchina' non avrebbe alcun valore legale. Dobbiamo poter spiegare scientificamente il perché", sottolinea Bestagini. Per questo i diversi detector sono stati messi a punto per analizzare caratteristiche specifiche e ben interpretabili.

L'analisi anti-deepfake: caccia a emozioni, ritmo e sintassi

Poter contare su una tecnologia efficace che sia anche in grado di spiegare come e perché sia arrivata a una determinata conclusione non è affatto scontato. Nel campo dell'intelligenza artificiale ci si confronta spesso con il problema della cosiddetta "black box", ossia un sistema che può raggiungere risultati molto accurati, ma il cui processo decisionale rimane in larga parte difficilmente interpretabile dagli esseri umani.

"Per superare questa sfida abbiamo differenziato i detector focalizzandoli su aspetti specifici", prosegue Bestagini. Alcuni sistemi studiano l'evoluzione delle emozioni nella voce, verificando se il comportamento emotivo sia coerente con quello di una persona reale o presenti la rigidità tipica delle sintesi artificiali. Altri si concentrano sulla prosodia, cioè sul ritmo, l'intonazione e la cadenza del parlato. Un'altra componente ancora analizza il contenuto semantico della conversazione: attraverso la trascrizione automatica del testo è così possibile individuare gli schemi comunicativi sospetti o riconducibili a quei bot che vengono utilizzati nelle campagne truffaldine.

Il futuro di FUN-Media: un coordinatore IA per battere i truffatori

Come spiegano gli stessi responsabili del progetto, questa tecnologia rappresenta soltanto il primo passo di un percorso in continua evoluzione. FUN-Media dovrà infatti continuare ad alimentarsi con nuovi dati per affinare progressivamente la precisione delle proprie analisi, ma anche tenere il passo con l'evoluzione dei sistemi di generazione dei deepfake. Proprio grazie ai continui progressi dell'intelligenza artificiale, queste tecnologie diventano infatti sempre più sofisticate e realistiche, imponendo ai detector un aggiornamento costante per non perdere efficacia.

La prossima evoluzione di FUN-Media sarà pertanto l'introduzione di quell'approccio agentico che sta contraddistinguendo il next level dello sviluppo del settore legato all'IA. Un agente di intelligenza artificiale fungerà da coordinatore dell'intero sistema, decidendo quali detector attivare e in quale ordine. "L'agente sarà anche in grado di regolare autonomamente i parametri e le soglie dei singoli algoritmi per adattarli alla qualità del file", conferma Bestagini. Questo consentirà non solo di migliorare l'efficienza dell'analisi, ma anche di documentare in modo trasparente ogni passaggio che porta al verdetto finale.

Si tratta però di una partita ancora tutta da giocare. "Purtroppo, al momento, è ancora più facile ingannare un detector che costruirne uno infallibile", ammette il ricercatore. Le registrazioni molto rumorose e i più recenti sintetizzatori commerciali continuano a mettere sotto pressione i sistemi di rilevamento. È per questo che la strategia del Politecnico punta sulla ridondanza, con tanti detector differenti che lavorano in parallelo, aggiornati costantemente per inseguire un'evoluzione tecnologica che corre a velocità sempre maggiore. Una corsa che riguarda non soltanto la ricerca, ma la sicurezza quotidiana di milioni di persone.

Continua a leggere su Fanpage.it