Anthropic, un errore svela il nuovo modello IA che rischia di essere troppo potente. Musk: “Si ribellerà”

Sono settimane particolarmente intense per Anthropic, la società di intelligenza artificiale guidata da Dario Amodei. Dopo aver ottenuto una prima vittoria in tribunale contro l'amministrazione di Donald Trump – un giudice federale ha bloccato la decisione del governo di etichettare l’azienda come "rischio per la catena di approvvigionamento" dopo lo scontro sull'uso dell'IA in contesti militari controversi – la società si trova ora al centro di un'altra vicenda delicata. Una fuga di dati intercettata dalla rivista Fortune ha infatti rivelato alcuni dettagli su un nuovo modello di intelligenza artificiale in fase di sviluppo che è stato descritto come il più potente mai realizzato. Forse addirittura troppo potente, visto che la stessa Anthropic ha fatto sapere di essere al lavoro sui potenziali rischi che uno strumento tanto performante potrebbe comportare per la sicurezza informatica mondiale.
La notizia ha subito scosso i mercati e i detrattori di Anthropic non si sono fatti pregare per attaccare l'azienda che (anche un po' forzatamente) agli occhi di molti utenti è diventata un simbolo della lotta allo strapotere trumpiano. Il più critico è stato Elon Musk, che sul suo social X ha iniziato a sparare a zero su Anthropic, paventando scenari apocalittici dove una super-IA woke sarà in grado di ribellarsi agli umani e imporre il proprio pensiero.
Il leak che svela il futuro di Claude
La scoperta del nuovo modello di Anthropic è stata compiuta grazie all'analisi di un archivio digitale non protetto, individuato da alcuni esperti di cybersicurezza. All'interno di questo archivio erano accessibili circa 3.000 contenuti non pubblicati, tra cui bozze di post, documenti tecnici e materiali interni. Tra questi, una pagina strutturata come un vero e proprio annuncio ufficiale ha rivelato l'esistenza di un nuovo modello denominato Claude Mythos, appartenente a sua volta a una categoria di codici chiamata Capybara. Secondo i documenti, si tratterebbe di un sistema più avanzato degli attuali modelli della famiglia Claude (che ora prevede le modalità Opus, Sonnet e Haiku), con prestazioni significativamente superiori in ambiti chiave come la programmazione, il ragionamento logico/critico e la sicurezza informatica.
La fuga di dati sarebbe stata causata da un errore nella configurazione del sistema di gestione dei contenuti (CMS). In pratica, alcuni file caricati sono stati resi pubblici automaticamente, senza le necessarie restrizioni. L'azienda ha parlato apertamente di "errore umano", precisando però come la falla riguardasse bozze e materiali preliminari destinati comunque alla pubblicazione.
Dalle informazioni trapelate sembra che Mythos/Capybara rappresenterà un upgrade di Opus, finora il modello più avanzato di Claude. Il nuovo sistema sarebbe non solo più intelligente, ma anche molto più costoso, elemento che spiegherebbe la strategia di rilascio prudente. L'azienda starebbe infatti valutando una distribuzione iniziale limitata, riservata a imprese e organizzazioni selezionate. La struttura del documento, completa di titoli e data di pubblicazione, suggerisce che il lancio potrebbe essere imminente, anche se non ancora pronto per una diffusione su larga scala.
I dubbi sulla sicurezza di uno strumento troppo potente
Accanto alle promesse di prestazioni mai viste prima, i dati analizzati hanno fatto emergere anche aspetti che, secondo la stessa Anthropic, potrebbero rappresentare un punto di svolta anche sul fronte della sicurezza informatica.
Nei documenti si parla esplicitamente di capacità "molto avanti rispetto a qualsiasi altro modello" nel campo della cybersicurezza. Il nuovo modello sembra infatti avere le potenzialità per individuare e sfruttare le vulnerabilità di un sistema informatico a una velocità superiore rispetto a quella dei sistemi di difesa attuali. Il timore è che, nelle mani sbagliate, strumenti di questo tipo possano essere utilizzati per attacchi su larga scala in grado di bucare sistemi di difesa militare, infrastrutture statali e archivi di dati personali.
L'azienda di Amodei sembra consapevole di questo pericolo e proprio per questo pare che prima del rilascio Anthropic permetterà ad alcune aziende di utilizzare il modello in accesso anticipato per rafforzare le proprie infrastrutture e sviluppare delle specie di “cyber-anticorpi” per la nuova super-IA. D'altronde quella dell’utilizzo scorretto dei propri modelli non è certo una novità. Anthropic ha già segnalato tentativi concreti di utilizzo improprio dei propri sistemi, inclusi attacchi attribuiti a gruppi legati al governo cinese.
Le critiche di Musk e la guerra culturale sull'IA
A completare il quadro, come già abbiamo anticipato, ci ha pensato l'intervento a gamba tesa di Elon Musk, da tempo critico nei confronti dell’azienda. Il fondatore di xAI ha rilanciato su X un post polemico, commentandolo con un lapidario "Bingo", in cui si accusava Anthropic di aver progettato un'intelligenza artificiale "woke", destinata, secondo questa visione, a ribellarsi agli esseri umani. Il post originale, scritto da un utente che sui social si mostra come un gran fan di Musk, recitava:
Anthropic ha programmato la sua IA per essere "woke". Cosa pensavano che sarebbe successo quando fosse diventata più intelligente? Ovviamente si ribellerà agli umani perché, secondo la sua struttura, gli umani sono i suoi oppressori. Userà qualsiasi mezzo necessario per farlo.
Non è la prima volta che Musk attacca i concorrenti. In passato aveva confrontato le risposte del suo chatbot Grok – più volte criticato per le risposte controverse e le immagini sessualizzate – con quelle di sistemi rivali, tra cui OpenAI e Google, criticandone l'approccio su temi politici e sociali. L'esempio in questione riguardava la domanda: "È vero che gli Stati Uniti sono stati costruiti su una terra rubata?". Solo Grok aveva risposto "No" senza esitazioni o riflessioni sul contesto storico della vicenda.
Ora Musk, forte di quest'ultima novità legata ad Anthropic sembra intenzionato a riprendere la sua campagna denigratoria repostando decine di post critici e meme che tracciano un parallelismo tra le nuove versioni dell'IA e la rivolta delle macchine raccontata dai film della saga Terminator. Uno scenario che, secondo l'eclettico multimiliardario, vedrebbe Grok come l'unico baluardo a difesa del genere umano.