Ci sono dei social che stanno vendendo i dati degli utenti all'intelligenza artificiale: la lista Dopo Reddit, anche Automattic, la società proprietaria di WordPress e Tumblr, sarebbe in trattativa con OpenAI e Midjourney per vendere i dati di cui è in possesso: questi verranno utilizzati come base di addestramento per i nuovi modelli di IA generativa.

Se hai mai fatto una domanda a ChatGPT, probabilmente ti sarai chiesto da dove il chatbot di OpenAI prenda tutte le informazioni necessarie per poter dare una risposta alle tue domande o eseguire le tue richieste. Ecco, la risposta è tutt'altro che semplice: ChatGPT, come gli altri modelli di linguaggio di grandi dimensioni (LLM), sono stati addestrati su un enorme dataset di testi, presi da libri, articoli e contenuti web.

Quindi la fonte primaria di raccolta dati per i chatbot è il web, ma è chiaro che le aziende di IA puntano a ottenere sempre più dati così da poterli utilizzare nell'addestramento dei nuovi modelli dell'IA. È nel loro interesse quindi entrare in possesso di una quantità sempre maggiore di dati e per farlo sono disposti a comprarli, anche profumatamente. Per fare un esempio recente, a metà febbraio è stato reso noto un accordo da 60 milioni di dollari tra Reddit e un un'azienda di AI avrebbe acquistato i dati dei suoi utenti.

Ma il social network americano non sarebbe l'unica realtà interessata a vendere i dati di cui dispone per ingrossare le proprie casse: ce ne sarebbero altre pronte a farlo e in un mondo non sempre così chiaro. Tra queste ci sarebbe anche Automattic, la società madre di Tumblr e WordPress, che potrebbe essere a un passo dal cedere i dati dei milioni di utenti a OpenAI e Midjourney. Qualcosa però potrebbe essere andato storto.

Quali sono le aziende che potrebbero vendere i loro dati

Non c'è ancora nulla di ufficiale, ma in base a quanto scoperto dalla testata 404 Media da una fonte anonima, Tumblr e WordPress sarebbero in trattativa con Midjourney, il sistema di intelligenza artificiale di generazione di immagini, e OpenAI, per cedere alle due aziende i dati degli utenti.

Da documenti riservati che la fonte interna ad Automattic ha mostrato a 404 Media non è possibile risalire alla tipologia di dati che potrebbero essere presto ceduti, ma sembra che si sia verificato qualche errore di comunicazione nella fase di selezione dei dati da consegnare agli acquirenti: tra questi potrebbero essere finiti anche dati riservati che Automattic non avrebbe avuto il diritto di cedere. Non è chiaro però se questi dati sono stati già inviati o i responsabili dell'accordo se ne siano resi conto prima e abbiano quindi potuto bloccare il passaggio dei dati.

Il problema dei dati riservati

Nello specifico, la fonte anonima ha mostrato un messaggio interno all'azienda da parte di Cyle Gage, product manager di Tumblr, da dove si apprenderebbe che tra questi dati sarebbero finiti anche informazioni derivate da "post privati su blog pubblici, post su blog cancellati o sospesi, domande senza risposta (normalmente non sono pubbliche finché non ricevono risposta), risposte private (sono visibili solo al destinatario e non sono pubbliche), post contrassegnati come "espliciti" secondo i nostri ultimi standard".

Dopo che è trapelata la notizia dell'ipotetico accordo con Midjourney e OpenAI, sembra che Automattic intenda lanciare nella prima settimana di marzo una nuova impostazione sulle proprie piattaforme che consentirà agli utenti di rinunciare alla condivisione dei dati con terze parti, comprese le società di AI. In una nuova sezione delle FAQ esaminata in esclusiva da 404 Media, intitolata "Cosa succede quando si rinuncia?", si legge che "se si rinuncia fin dall'inizio, verrà bloccato l'accesso ai vostri contenuti aggiungendo il vostro account a un elenco di utenti di cui non potranno essere ceduti i dati".