video suggerito
video suggerito

Wayback Machine, il grande archivio di Internet, rischia di sparire: gli editori non vogliono addestrare l’IA

Alcuni dei più importanti editori del mondo giornalistico hanno impedito l’accesso a WayBack Machine, il sito che salva le versioni passate delle pagine web e costituisce uno dei più importanti archivi digitale del mondo. Le testate temono che i propri contenuti possano essere usati per addestrare l’IA ed erodere i loro ricavi. Per molti ricercatori e giornalisti, però, il rischio è cancellare la memoria storica del web, rendendo impossibile il fact-checking e la verifica delle fonti nel tempo.
A cura di Niccolò De Rosa
0 CONDIVISIONI
Immagine

Da quasi trent'anni, la Wayback Machine dell'Internet Archive rappresenta una sorta di macchina del tempo per chiunque voglia osservare i cambiamenti del web attraverso gli anni. Questo strumento consente infatti di consultare le versioni passate di siti web, recuperare pagine cancellate e verificare come contenuti online siano cambiati nel tempo, diventando una risorsa imprescindibile per giornalisti, ricercatori e cittadini che desiderano controllare dichiarazioni pubbliche, ricostruire contesti o, semplicemente, preservare la memoria storica del web. Negli ultimi mesi, però, questo archivio globale si trova ad affrontare una crisi senza precedenti perché molti dei più importanti siti di notizie hanno deciso di impedire a questo strumento di accedere ai propri server. Il motivo, tanto per cambiare, è l'incedere incontrollato dell'Intelligenza Artificiale, la quale può facilmente usare i contenuti custoditi dalla Wayback Machine per diventare sempre più onnisciente.

I motivi del blocco

Secondo un'analisi della startup Originality AI, sono almeno 23 le grandi testate giornalistiche che hanno deciso di bloccare "ia_archiverbot", il crawler utilizzato dalla Wayback Machine per "immortalare" le pagine online. Un crawler è un programma automatizzato che si aggira per il web (il verbo to crawl significa proprio "strisciare") per analizzare i contenuti presenti in Rete. Tra le testate che hanno serrato i propri siti figurano nomi di primo piano come il New York Times, il gruppo USA Today (che da solo controlla oltre 200 testate) e anche piattaforme social come Reddit. Secondo la ricostruzione del Niemanlab alcuni editori hanno scelto un blocco totale, mentre altri, come il britannico Guardian, hanno adottato strategie più sottili, consentendo l'archiviazione, ma limitando l'accesso pubblico ai contenuti salvati, creando di fatto dei vicoli ciechi per chi tenta di consultare articoli del passato.

Le ragioni di un simile atteggiamento sono facilmente intuibili. I modelli di IA richiedono di essere addestrati per diventare sempre più performanti. Gli editori temono quindi che i contenuti archiviati dalla Wayback Machine possano essere utilizzati per arricchire i sistemi di IA generativa in grado di competere direttamente con le testate – l'esempio lampante è lo strumento Ai Overviews di Google, che sfrutta Gemini per offrire in cima alla SERP un sunto delle informazioni ricercate dagli utenti – erodendo così il traffico e, di conseguenza, i ricavi pubblicitari.

Non solo. Secondo il New York Times esisterebbe anche una questione di copyright legata ai contenuti. Nel momento in cui l'IA si appropria di un'informazione, la proprietà intellettuale della notizia si perde per sempre, danneggiando ulteriormente la fonte che quella notizia l'ha curata, verificata e diffusa.

Il paradosso dell'archivio digitale

Secondo diversi esperti, tra cui anche numerosi giornalisti, questo atteggiamento rischia però di trasformarsi in un boomerang. Nei giorni scorsi diverse testate hanno citato l'esempio proprio di USA Today che, grazie alle pagine reperite su WayBack Machine, ha potuto smascherare i comportamenti poco limpidi dell'Immigration and Customs Enforcement (ICE).

Mark Graham, direttore della Wayback Machine, non ha ovviamente perso l'occasione per sottolineare questo paradosso, affermando come le testate sfruttino l'archivio per raccogliere informazioni, ma allo stesso tempo ne vogliano limitare la possibilità di esistere. In passato, l'Internet Archive ha anche permesso di individuare modifiche non dichiarate in articoli pubblicati, dimostrando il suo ruolo cruciale nel fact-checking.

Il rischio di perdere un prezioso alleato per la memoria digitale

Le conseguenze di questi blocchi potrebbero essere profonde. Senza un archivio accessibile, la possibilità di verificare affermazioni passate, monitorare modifiche editoriali o ricostruire eventi rischia di ridursi drasticamente. Per questo, oltre 100 giornalisti hanno già firmato una lettera a sostegno dell'Internet Archive, definendolo l'erede digitale degli archivi cartacei dei quotidiani. Il rischio concreto è la creazione di un vuoto informativo, in cui la memoria del web viene frammentata e controllata direttamente dagli editori. In assenza di alternative pubbliche comparabili, la progressiva chiusura degli archivi potrebbe compromettere la trasparenza e la capacità della società di comprendere il proprio passato recente.

0 CONDIVISIONI
autopromo immagine
Più che un giornale
Il media che racconta il tempo in cui viviamo con occhi moderni
api url views