Come ha fatto Beppe Grillo a creare un video in cui parla in cinese Il leader del Movimento 5 Stelle, autoproclamatosi Elevato, ha pubblicato un video in cui parla in cinese. La clip è stata girata usando l’intelligenza artificiale, una tecnologia che ormai è alla portata di tutti.

A cura di Valerio Berra

L’effetto è impressionante. “Complimenti, parli un cinese perfetto” o ancora “Mi dicono che è un accento del sud della Cina, alcune parole sono un po' strane ma tutto sommato bene”. E ovviamente per chi non conosce nemmeno una parola di questa lingua sembra tutto verosimile. Nella sua ultima apparizione pubblica Beppe Grillo ha parlato solo in cinese. Il fondatore del Movimento Cinque Stelle, autoproclamatosi Elevato, ha pubblicato un video sul suo blog in cui parla in perfetto cinese mentre spiega la sua proposta di un Via del Basilico.

C’è però un trucco. Il video non sembra il frutto di un corso avanzato di cinese o di un abbonamento premium su Duolinguo ma semplicemente di un buon software basato sull’intelligenza artificiale. Il funzionamento sarebbe lo stesso alla base dei video deepfake, quelli in cui l’immagine di una persona viene usata per dire qualsiasi cosa.

La tecnica del FaceSwap

Ci sono varie tecniche per creare un deepfake. E ci sono vari programmi. Tutto dipende fondamentalmente da due fattori: quanto si vuole spendere e quali sono le nostre capacità nell’editing video. Una delle tecniche più semplici da utilizzare è quella del Face Swap. Questo procedimento prevede di sostituire il nostro volto a quello di un’altra persona ripresa in video. Con il Face Swap la nostra immagine viene semplicemente sovrapposta a quella che abbiamo nel video. In questo modo qualsiasi espressione fatta e qualsiasi parola detta verrà riprodotta in modo totalmente fedele.

YOUTUBE | Un tutorial per fare Face Swap

Per raggiungere questo risultato ci sono sia software in rete, non molto efficaci, che librerie su GitHub. In pratica si tratta di programmi già scritti che però devono essere utilizzati da chi è in grado di maneggiare un po’ di linguaggi di coding. I risultati sono dignitosi, in uno dei tutorial che si trovano su YouTube possiamo vedere il volto di Charlize Theron nel video della pubblicità del profumo Dior J’adore Absolu sostituito con quello di Mr. Bean.

Come creare un video deepfake

Il video di Beppe Grillo che parla in cinese sembra che abbia seguito invece un percorso più complesso fatto almeno da due passaggi. Il primo è stato creare una traccia audio con la voce di Beppe Grillo che scandisce il suo discorso in cinese. Clonare una voce è relativamente semplice. Un esempio. A VALL-E, software basato sull’intelligenza artificiale sviluppato da Microsoft, basta una clip di tre secondi per clonare qualsiasi voce. Per far dire quello che vogliamo è sufficiente inserire un testo già tradotto in cinese.

YOUTUBE | Uno dei passaggi di Thin–Plate–Spline–Motion–Model

Una volta che abbiamo in mano la traccia audio bisogna applicarla al video. Anche qui le strade sono parecchie. Il software Rask promette di trasformare i nostri contenuti in qualsiasi lingua. Il risultato però è un po’ dozzinale. Già nei video promozionali si vede che l’audio non è sincronizzato con i movimenti della bocca. Altri programmi, come Thin-Plate-Spline-Motion-Model permettono di applicare l’audio a un'immagine statica che inizierà a muoversi e parlare. Qui il risultato è abbastanza impressionante: non si muovono solo le labbra ma è tutto il volto a cambiare e spostarsi durante il discorso.

Nel caso del video di Beppe Grillo sembra che sia stata usata un’altra tecnologia. Qui infatti l’audio è stato legato direttamente a un video. Anche qui i software sono tanti, sia quelli che permettono di fare tutto online che quelli che invece hanno bisogno di un po’ di studio. Con qualche ritocco e il giusto video editing tutto funziona. D’altronde ormai i video deepfake sono diventati anche una rubrica fissa persino di Striscia la Notizia.