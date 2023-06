Ora sappiamo quali libri ha letto ChatGPT per diventare un’intelligenza artificiale David Bamman insegna all’Università di Berkeley. In una ricerca pubblicata in anteprima su Business Insider ha svelato quali sono i romanzi che ChatGPT conosce meglio. Questi libri, probabilmente, fanno parte dei testi su cui è stata addestrata l’intelligenza artificiale.

Cosa legge ChatGPT prima di addormentarsi? O mentre è in metro verso il lavoro, o ancora mentre è in spiaggia sotto l’ombrellone? A queste domande c’è una sola risposta: nulla. Da quando è stata svelata al grande pubblico ChatGPT ha mostrato di essere un’intelligenza artificiale con delle potenzialità enormi. Talmente enormi che qualcuno ha pensato anche di umanizzarla, proponendo test per capire se fosse in grado di sviluppare un pensiero autonomo. Ovviamente non è così. ChatGPT è solo una macchina molto efficiente.

Capire però come questa macchina ha imparato a lavorare in modo così efficiente può essere interessante, anche per studiare meglio tutti i software di intelligenza artificiale con cui avremo a che fare nei prossimi anni. David Bamman insegna all’Università di Berkeley, in California. Qui ha cominciato a studiare quali romanzi sono stati utilizzati per costruire l’enorme biblioteca di testi da cui ChatGPT prende le sue informazioni tutte le volte che le chiediamo qualcosa. La versione utilizzata da Bamman per i suoi studi è GPT-4. Al momento i risultati della ricerca sono ancora in pre-print, devono essere verificati e pubblicati su una rivista specializzata.

Come è stata condotta la ricerca

Bamman ha scelto di usare per ChatGPT lo stesso metodo che un professore di letteratura userebbe per capire se un suo studente ha letto davvero la lista dei libri per le vacanze estive o se si è limitato a cercare due cose su Wikipedia la notte prima. Insieme al suo team di ricercatori ha cominciato a interrogare ChatGPT in modo massivo su una discreta quantità di testi. In gergo questo metodo si definisce Reverse Engineering: si parte dal risultato per arrivare a capire il processo che c'è dietro.

Bamman ha deciso di concentrarsi solo sui romanzi. Capire da dove vengono tutti i dati nell’archivio, compresi articoli scientifici e pagine di Wikipedia, di ChatGPT è praticamente impossibile. Secondo alcuni ricercatori l’intero archivio potrebbe essere nel reame dei Petabyte, l’ordine di grandezza successivo ai Terabyte. Al termine delle sue interrogazioni Bamman ha stilato la lista dei romanzi che ChatGPT conosce meglio. Questi titoli, molto probabilmente, sono stati dati in pasto al software per sviluppare conoscenze sulla sintassi e per avere informazioni di background sulla cultura generale e sulla letteratura.

ChatGPT è un lettore di fantasy

Scorrendo i titoli, ChatGPT sembra un giovane adulto, residente negli Stati Uniti, mediamente colto che nel corso della sua vita da lettore ha sviluppato una discreta passione per la narrativa fantasy. Un profilo che non è tanto diverso da quello degli ingegneri informatici che hanno effettivamente programmato il software. Il libro che ha registrato il punteggio migliore è Harry Potter e la Pietra Filosofale, il capostipite della saga firmata da J.K. Rowling. Al secondo posto c’è 1984 di George Orwll, al terzo la Compagnia dell’Anello, capostipite questa volta della saga di J.R.R. Tolkien.

Ma nell’elenco troviamo anche altri grandi classici della nerd culture. C’è ovviamente Douglas Adams con Guida Galattica per Autostoppisti, Frank Herbert e il suo Dune, George R.R. Martin e The Game of Thrones e Philip. K.. Dick con Ma gli androidi sognano pecore elettriche?. Non mancano anche cenni di letteratura americana come Furore di John Steinbeck o passaggi di letteratura inglese con Il Signore delle Mosche di William Golding.

Perché è importante conoscere i dati che formano un’intelligenza artificiale

Quello proposto da Bamman nella sua ricerca non è solo un gioco letterario. Ne ha parlato a Business Insider, svelando un’anteprima dei suoi risultati: “Le fonti su cui sono stati addestrati questi modelli influenzeranno il tipo di modelli che hanno e i valori che presentano”. Gli archivi con cui viene addestrato ChatGPT al momento sono segreti ma è abbastanza chiaro che più questi software saranno influenti sulla nostra vita, più sarà necessario capire i meccanismi con cui sono addestrati. L’ideale sarebbe che per ogni risposta fosse possibile risalire alle fonti e ai processi utilizzati dall’intelligenza artificiale per selezionare alcune informazioni a discapito di altre.