10 CONDIVISIONI
video suggerito
video suggerito

L’intelligenza artificiale ha creato la Tuta Gold di Mahmood con i cinque cellulari: le foto

Abbiamo cercato all’interno dei testi presentati a Sanremo 2024 le frasi evocative o le metafore adatte a essere tradotte in immagini. Per realizzarle abbiamo utilizzato sia Midjourney, sia Bing.
A cura di Elisabetta Rosso
10 CONDIVISIONI
Immagine

Se dieci persone ascoltano una canzone, la canzone avrà dieci significati diversi. Basta qualche parola per creare panoramiche emotive, o raccontare storie. Ognuna è diversa, perché alla fine riempiamo i vuoti semantici con qualcosa di nostro. Per questo può sembrare strano chiedere all‘intelligenza artificiale (IA) di immaginare graficamente un brano, eppure l'abbiamo fatto. Le cavie dell'esperimento sono stati i brani presentati a Sanremo 2024. Abbiamo selezionato strofe o parti di ritornello di cinque brani presentati al festival, siamo partiti da lì e poi l'IA ha fatto tutto il resto (con qualche dritta).

Per realizzare le immagini abbiamo utilizzato sia Midjourney sia Bing. Abbiamo prima provato a usare come prompt il testo originale. Non ha funzionato. I software hanno sputato fuori immagini allucinate, e così abbiamo aiutato l'intelligenza artificiale. Partendo proprio dalle strofe e dai ritornelli scelti abbiamo parafrasato le parti di testo. Ma, anche in questo caso, l'IA ha zoppicato. Per esempio, ha sfornato una "tuta gold" con cinque maniche, poi l'ha trasformata in un abito da sera con paillet dorate. Cambiamo strategia. Descriviamo in modo preciso le immagini evocate dai testi, aggiungiamo proporzioni, inquadratura e dettagli tecnici ed ecco che i software cominciano a produrre qualcosa di interessante.

Come abbiamo realizzato le immagini

Le canzoni sono state scelte in modo strumentale, abbiamo cercato all'interno dei testi frasi evocative o metafore adatte a essere tradotte in immagini. Non ha funzionato per tutte. Per esempio nel caso di "Casa mia" di Ghali (non appare infatti nella gallery) né Midjourney né Bing sono riusciti a generare un'immagine interessante in grado di raccontare il brano. Abbiamo chiesto di creare la foto di una casa sospesa su un'astronave, partendo proprio dal testo, e nonostante i tentativi ha sputato fuori una serie di edifici che sembravano disegnati da Frank Lloyd Wright. 

Anche i cinque cellulari sulla tuta gold ci hanno dato filo da torcere. Soprattutto per il numero cinque, l'intelligenza artificiale fatica con numeri e parole, quindi abbiamo dovuto ritentare più volte. Sono apparsi innumerevoli smartphone prima di riuscire a intercettare i cinque cellulare citati nella canzone.

I trucchi per usare l'intelligenza artificiale

La regola d’oro è conoscere il gergo fotografico e imparare a parlare la lingua dell’intelligenza artificiale (IA). Un gergo fatto di ripetizioni, frasi semplici, parole chiave e termini tecnici. Abbiamo provato più volte cambiando la struttura della frase. Il modo migliore è infilare una dopo l’altra parole chiave semplici. La punteggiatura è fondamentale, dimenticare una virgola può far produrre qualcosa di completamente diverso.

Non solo. Le proporzioni influiscono sulla qualità, la migliore da utilizzare è 6:9, come nella fotografia anche la luce è tutto, morbida, cinematografica, naturale, da studio, luce intensa, diffusa, o con il filtro polarizzato. È importante fornite più indicazioni possibili per ottenere un risultato di qualità. Per produrre buone immagini bisogna poi essere ostinati. Un prompt può generare risultati ottimi una volta e pessimi quella dopo. Nel mondo dell’IA c’è anche la variabile fortuna. Non dipende sempre dalle parole che scriviamo, per questo è bene testare più volte, dato che ogni risultato è a sé. C’è inoltre la possibilità di generare varianti della stessa immagine se ci convince ma ha qualche dettaglio fuori posto.

10 CONDIVISIONI
autopromo immagine
Più che un giornale
Il media che racconta il tempo in cui viviamo con occhi moderni
api url views