Da Bocelli ad Al Bano, l’AI si è addestrata sulla musica italiana senza permessi, l’avvocato: “Servono nuove regole”

C'è un mondo della musica generata attraverso l'AI che guarda al repertorio italiano, invadendolo e permeandolo in nuove vesti, in nuovi suoni, ma non proprio in nuove voci. L'inchiesta condotta dalla rivista The Atlantic, con il giornalista Alex Reisner, ha sicuramente aperto uno squarcio sull'esistenza di database di tracce musicali protette da diritto d'autore, che sono state però utilizzate senza alcun consenso per alimentare le architetture di applicativi come Suno e Udio. Entrambe sono piattaforme di intelligenza artificiale generativa in grado di creare brani musicali completi, ovvero con strumenti e voce, partendo da semplici descrizioni testuali. Alcuni prompt, generati da Suno, hanno portato in testa alle classifiche statunitensi brani rock come "Walk my walk" dei Breaking Rust.
Il dataset che ha raccolto 12 milioni di brani e 91 anni di musica
Anche in Italia abbiamo avuto esempi di musica generata attraverso applicativi AI come il "collettivo" Cantoscena. Ciò che ha svelato l'inchiesta è l'esistenza di quattro database, contenenti oltre 21 milioni di tracce musicali. E tra le quattro, la più importante e ricca di brani, anche italiani, è il dataset LAION-DISCO-12M. Come? Questo dataset non solo rappresenterebbe la spina dorsale per l'addestramento dei modelli generativi, ma avrebbe anche delegato a software terzi il lavoro di scraping. Ovvero avrebbero fornito uno script, un'istruzione, per poter accedere a piattaforme di streaming, come YouTube, aggirando gli accessi, le pubblicità e i meccanismi che potrebbero garantire guadagni sia agli artisti, sia alle etichette che pubblicano e distribuiscono la loro musica. LAION, secondo The Atlantic, avrebbe raccolto 91 anni di musica, dopo aver ricevuto finanziamenti da Emad Mostaque, co-fondatore ed ex CEO di Hugging Face e Stability AI.
Cosa si trova nel dataset e perché permette l'addestramento di piattaforme di creazione musicale generativa
Questo avrebbe permesso di contenere all'interno del dataset non il file audio, che avrebbe poi trasformato l'azione in un'appropriazione industriale su vasta scala. Infatti, all'interno del dataset, è possibile trovare i metadati associati al file, che avrebbero permesso da una parte di fornire le sequenze ritmiche, il timbro della voce e le frequenze del brano, dall'altra parte anche una struttura semantica che insegnasse all'applicativo AI la correlazione di alcune parole da utilizzare per generi musicali, o con determinate progressioni sonore. A ogni traccia viene dato un ID di riconoscimento e un URL per arrivare al brano. Tra questi brani, c'è un grande comparto della musica italiana, dalla classica al moderno, da Pavarotti a Elisa, passando per Bocelli, Al Bano Carrisi e Mina.
Da Pavarotti ad Al Bano, passando per Salmo e Marracash
Solo nel dataset LAION-DISCO-12M, che, come ricordiamo, contiene oltre 12 milioni di brani, è stato possibile trovare 639 esibizioni di Luciano Pavarotti. Il tenore italiano è senza dubbio l'artista più "studiato" dall'AI generativa, e non sarebbe complicato evidenziarne i motivi. Dalla grande estensione vocale alla perpendicolarità del suo timbro, Pavarotti rappresenta uno dei tenori più importanti della storia, ma soprattutto uno degli interpreti musicali italiani più riprodotti e riconosciuti nel mondo. Sotto di lui, Andrea Bocelli, che sembra ricalcarne le caratteristiche, mentre dietro di loro c'è Al Bano Carrisi.
Il caso Giusy Ferreri e il brevetto della sua voce
Com'è possibile intravedere nel dataset LAION-DISCO-12M fornito da Hugging Face, dietro il terzetto iniziale ci sono Mina con 251 canzoni, Elisa con 237, ma anche Lucio Dalla con 184 e la coppia Salmo e Marracash, rispettivamente a 182 e 180. Un universo musicale variopinto che solo qualche mese fa, dopo la registrazione di Giusy Ferreri della propria voce come marchio sonoro presso l'EUIPO, avevamo toccato con l'avvocato Tozzi. Proprio Tozzi aveva sottolineato come le norme del diritto d'autore avessero incluso anche la voce come tratto inscindibile della propria identità personale, e che il marchio dovesse avvenire tramite la registrazione di due elementi caratterizzanti: "Da una parte c'è sicuramente il file che contiene la voce, che deve essere seguito da un documento descrittivo. Per un artista che ha una voce caratterizzante è opportuno che vengano stabilite alcune caratteristiche, come la sua espansione (per esempio per un tenore), ma anche il suo timbro". Giusy Ferreri rientra nella Top 50 degli artisti italiani che hanno più brani contenuti in questo dataset, al penultimo posto, con 112 canzoni.
Lo strumento dell'opt-out e il sistema di fingerprint audio personale come mezzo per combattere questo fenomeno
Come combattere questo fenomeno? L'avvocato Tozzi suggerisce lo strumento dell'opt-out, "ovvero la riserva esplicita dei diritti e il divieto di utilizzare le proprie prestazioni per l'addestramento o per attività legate all'intelligenza artificiale" nel contratto degli artisti. Ma non solo, anche un sistema di registrazione di un fingerprint audio personale, così che "chiunque la manipolerà lascerà delle tracce che i software specializzati potranno far emergere. Parliamo di tecnologie che esistono già su altri fronti: oggi le registrazioni fonografiche ufficiali sono contrassegnate dal codice ISRC. Essi funzionano esattamente come un microchip sottocutaneo".
L'insidia della locazione della sede e il problema della tutela giurisdizionale
C'è anche un aspetto su cui riflettere, ovvero lo scoglio della sede di queste aziende che raccolgono milioni e milioni di brani: "Per portarli in tribunale, banalmente negli Stati Uniti, non ti basta pagare il nostro classico contributo unificato; servono investimenti in spese legali enormi. Proprio per superare questi ostacoli, recentemente anche il nostro Presidente della Repubblica ha sottolineato l'urgenza di creare regole transnazionali e trasversali sull'IA, altrimenti rischiamo di non avere un effettivo potere di tutela". C'è anche da fare attenzione ai danni non solo economici per gli artisti.
Sì, perché se da una parte, "il mercato si impoverisce a causa della saturazione dovuta ai cloni, danneggiando la monetizzazione legittima per gli artisti", c'è anche la difficoltà, sempre maggiore, nel trovare chi sia disposto a pagare per la musica e per la sua creazione: "Se l'asset immateriale viene usato abusivamente da chiunque, diventerà sempre più difficile trovare chi sia disposto a pagare le licenze". Senza dimenticare il danno morale e d'immagine: "Se un'IA genera una canzone nello stile di un artista, quell'opera potrebbe non rispecchiare i suoi valori o ciò che lui vorrebbe realmente esprimere. Ricordiamoci che l'arte è espressione di un sentimento intimo e personale".
E se negli Stati Uniti, la legge sul copyright, l'US Copyright Act, stabilisce che in caso di violazione intenzionale e deliberata (willful infringement), i danni statutari possono arrivare a un massimo di 150.000 dollari per ogni singola opera copiata, Tozzi registra che non esiste, attualmente, un valore nominale per singola copia in Italia: "La nostra legge non prevede multe fisse o cifre ad hoc prestabilite in questo modo. Da noi il risarcimento è sempre parametrato: viene calcolato in base all'entità dell'utilizzo illecito e, ovviamente, al giro d'affari e alla rilevanza del singolo artista".
Cosa cambia per il pubblico e perché il valore percepito della musica sta svanendo
Sorge invece ancora l'indecisione del pubblico nei confronti della musica generata da AI, ma soprattutto sull'utilizzo di brani del passato per la generazione di nuove canzoni. Tra gli aspetti su cui l'opinione pubblica si sta indirizzando, in maniera molto meno veemente rispetto ai pochi artisti che hanno preso posizione, c'è sicuramente la svalutazione della musica da forma d'arte a contenuto per piattaforma. Un sintomo che il valore percepito della musica in sé sta evolvendo, perdendo la sua capacità d'impatto rispetto alla sua replicabilità, ormai infinita. E in questo rumore di fondo collettivo, anche e soprattutto il silenzio della maggior parte degli artisti e dell'industria discografica tende a far naufragare qualsiasi riflessione sul futuro della musica.
La Top 50 degli artisti italiani con più canzoni presenti sul dataset
- Pavarotti: 639
- Andrea Bocelli: 360
- Albano Carrisi: 253
- Mina: 251
- Elisa: 237
- Lucio Dalla: 184
- Salmo: 182
- Marracash: 180
- Jovanotti: 177
- Fabrizio De André: 163
- Emma Marrone: 162
- Claudio Baglioni: 161
- Loredana Bertè: 161
- Tiziano Ferro: 159
- Max Pezzali: 159
- Gabry Ponte: 158
- Luca Carboni: 156
- Zucchero: 155
- Umberto Tozzi: 155
- Laura Pausini: 154
- Eros Ramazzotti: 153
- Fedez: 153
- Giorgia: 153
- Adriano Celentano: 152
- Ligabue: 151
- Pooh: 151
- Francesco Guccini: 150
- Gianna Nannini: 150
- Alessandra Amoroso: 149
- Carmen Consoli: 148
- Cesare Cremonini: 148
- Vasco Rossi: 148
- Renato Zero: 147
- Negramaro: 145
- Sfera Ebbasta: 145
- Antonello Venditti: 143
- Lazza: 143
- Geolier: 141
- Mia Martini: 139
- Roberto Murolo: 138
- Marco Mengoni: 133
- Patty Pravo: 132
- Samuele Bersani: 132
- Toto Cutugno: 130
- Annalisa: 128
- Renato Carosone: 128
- Anna Oxa: 118
- Ricchi e Poveri: 118
- Giusy Ferreri: 112
- Arisa: 102