35 CONDIVISIONI
video suggerito
video suggerito

La Gioconda canta un brano rap: come funziona VASA-1, la nuova intelligenza artificiale di Microsoft

Aspetto fisico, posizione della testa ed espressioni vengono generate separatamente. Il nuovo modello ha bisogno solo di un’immagine e di un audio per generare un video realistico. “Non la rilasceremo finché non siamo sicuri che venga usata in maniera responsabile”
A cura di Velia Alvich
35 CONDIVISIONI
Immagine

Dal sorriso appena accennato per cui è nota in tutto il mondo, fino al brano rap cantato con espressioni facciali esagerate. La Gioconda si è presentata davanti al pubblico di internet con un'esibizione canora di tutto rispetto realizzata grazie all'intelligenza artificiale. Si muove, sgrana gli occhi, apre la bocca in maniera quasi eccessiva quando pronuncia i versi della canzone rap.

A realizzare il nuovo modello di intelligenza artificiale, che si chiama VASA-1, è un gruppo di ricerca Microsoft, che ha trovato un modo per combinare audio a una semplice fotografia (o, in questo caso, a un dipinto) per generare video realistici di gente che parla o che canta.

Come funziona VASA-1, l'IA che crea deepfake da una semplice foto

La Gioconda apre la bocca e mostra i denti, mentre la testa si muove in maniera plateale nel quadrato da soli 512 pixel in cui si esibisce. Scandisce bene ogni parola del brano rap che per la prima volta è stato cantato in tv dall'attrice Anne Hathaway durante uno show serale condotto da Conan O'Brien. Quello pubblicato dal Microsoft Research Asia, in cui vengono usate le sembianze di un famoso dipinto, non è l'unico esempio. Uomini e donne da tutto il mondo si esibiscono in brevi monologhi, a volte guardando verso una videocamera immaginaria, altre volte lanciando uno sguardo in giro.

Nessuno di loro, però, esiste nella vita reale. Tutte le immagini iniziali sono state create da generatori di immagini IA come Copilot della stessa Microsoft e Dall-E, il generatore di OpenAI. Le immagini sono state unite agli audio presenti in un dataset di voci di celebrità chiamato VoxCeleb2 e poi il tutto è stato dato in pasto al modello di intelligenza artificiale. Questa ha poi trasformato le immagini statiche e le ha animate, sincronizzandole con l'audio.

Quando si potrà usare il nuovo modello di intelligenza artificiale di Microsoft

L'addestramento di VASA-1 è stato fatto grazie a migliaia di volti con espressioni diversissime tra di loro. Ma il vero segreto del modello è il modo in cui viene generato il risultato finale: separando tre caratteristiche fondamentali, cioè l'aspetto fisico da riprodurre, la posizione della testa e l'espressione facciale. In questa maniera, è possibile controllare separatamente i tre elementi e ottenere un risultato tutto sommato realistico. I modelli, infatti, muovono la testa per enfatizzare alcune parti del discorso, sbattono le palpebre, muovono lo sguardo a destra e sinistra, sorridono alla telecamera.

Per adesso i video si limitano a quadrati animati a 45 frame al secondo (si scende a 40 se vengono trasmessi in diretta). In futuro, potremmo vedere una tecnologia simile applicata per esempio alle pellicole di animazione o ai videogiochi. Intanto, però, dovremo aspettare un po' prima di usarlo. I ricercatori infatti hanno espresso preoccupazione all'idea di distribuire il modello al pubblico. Simili tecnologie, infatti, possono essere utilizzare per impersonare altri individui semplicemente rubando una loro foto. "Non abbiamo in programma di rilasciare demo, prodotti o ulteriori dettagli di implementazione fino a quando non saremo certi che la tecnologia sarà utilizzata in modo responsabile e in conformità con le normative vigenti", hanno detto i ricercatori nello studio pubblicato da Microsoft.

35 CONDIVISIONI
autopromo immagine
Più che un giornale
Il media che racconta il tempo in cui viviamo con occhi moderni
api url views