La Gioconda canta un brano rap: come funziona VASA-1, la nuova intelligenza artificiale di Microsoft

Aspetto fisico, posizione della testa ed espressioni vengono generate separatamente. Il nuovo modello ha bisogno solo di un’immagine e di un audio per generare un video realistico. “Non la rilasceremo finché non siamo sicuri che venga usata in maniera responsabile”

Vuoi leggere Fanpage.it senza pubblicità? Abbonati ora

A cura di Velia Alvich

35 CONDIVISIONI

commenta

Dal sorriso appena accennato per cui è nota in tutto il mondo, fino al brano rap cantato con espressioni facciali esagerate. La Gioconda si è presentata davanti al pubblico di internet con un'esibizione canora di tutto rispetto realizzata grazie all'intelligenza artificiale. Si muove, sgrana gli occhi, apre la bocca in maniera quasi eccessiva quando pronuncia i versi della canzone rap.

A realizzare il nuovo modello di intelligenza artificiale, che si chiama VASA-1, è un gruppo di ricerca Microsoft, che ha trovato un modo per combinare audio a una semplice fotografia (o, in questo caso, a un dipinto) per generare video realistici di gente che parla o che canta.

Come funziona VASA-1, l'IA che crea deepfake da una semplice foto

La Gioconda apre la bocca e mostra i denti, mentre la testa si muove in maniera plateale nel quadrato da soli 512 pixel in cui si esibisce. Scandisce bene ogni parola del brano rap che per la prima volta è stato cantato in tv dall'attrice Anne Hathaway durante uno show serale condotto da Conan O'Brien. Quello pubblicato dal Microsoft Research Asia, in cui vengono usate le sembianze di un famoso dipinto, non è l'unico esempio. Uomini e donne da tutto il mondo si esibiscono in brevi monologhi, a volte guardando verso una videocamera immaginaria, altre volte lanciando uno sguardo in giro.

Quando si potrà usare il nuovo modello di intelligenza artificiale di Microsoft

L'addestramento di VASA-1 è stato fatto grazie a migliaia di volti con espressioni diversissime tra di loro. Ma il vero segreto del modello è il modo in cui viene generato il risultato finale: separando tre caratteristiche fondamentali, cioè l'aspetto fisico da riprodurre, la posizione della testa e l'espressione facciale. In questa maniera, è possibile controllare separatamente i tre elementi e ottenere un risultato tutto sommato realistico. I modelli, infatti, muovono la testa per enfatizzare alcune parti del discorso, sbattono le palpebre, muovono lo sguardo a destra e sinistra, sorridono alla telecamera.

Per adesso i video si limitano a quadrati animati a 45 frame al secondo (si scende a 40 se vengono trasmessi in diretta). In futuro, potremmo vedere una tecnologia simile applicata per esempio alle pellicole di animazione o ai videogiochi. Intanto, però, dovremo aspettare un po' prima di usarlo. I ricercatori infatti hanno espresso preoccupazione all'idea di distribuire il modello al pubblico. Simili tecnologie, infatti, possono essere utilizzare per impersonare altri individui semplicemente rubando una loro foto. "Non abbiamo in programma di rilasciare demo, prodotti o ulteriori dettagli di implementazione fino a quando non saremo certi che la tecnologia sarà utilizzata in modo responsabile e in conformità con le normative vigenti", hanno detto i ricercatori nello studio pubblicato da Microsoft.

Continua a leggere su Fanpage.it

Software

Tecnologia

35 CONDIVISIONI

commenta