video suggerito
video suggerito

Un questionario sta smascherando i limiti e l’arroganza dell’IA: cos’è l’Humanity’s Last Exam

Il test “Humanity’s Last Exam” ha sfidato i modelli avanzati di intelligenza artificiale con 2.500 quesiti specialistici per valutarne il livello complessivo di conoscenza e risposte accurate. I risultati hanno evidenziato che anche quando le risposte erano poco precise, alcuni modelli tendevano a ostentare un’eccessiva sicurezza.
A cura di Niccolò De Rosa
0 CONDIVISIONI
Immagine

Negli ultimi anni l'avanzata dell'intelligenza artificiale ha messo in crisi i tradizionali test accademici che per decenni hanno misurato i progressi "cognitivi" delle macchine. Esami come il Test di Turing, sviluppato da Alan Turing per capire se un computer può emulare l'intelligenza di un essere umano, sembrano ormai obsoleti di fronte alle capacità dei moderni Large Multimodal Models (LMM), i quali hanno iniziato a ottenere punteggi quasi perfetti in prove considerate fino a poco tempo fa molto difficili. Ciò però non significa che l'IA abbia già raggiunto un livello di perfezione assoluta. Anzi.

Per distinguere in modo efficace i livelli di capacità delle nuove macchine un gruppo internazionale composto da quasi mille ricercatori ha pertanto deciso di alzare l'asticella, progettando una prova molto più complessa. Si chiama "Humanity's Last Exam" (letteralmente "l'ultimo esame dell'umanità"), ed è grossomodo un questionario pensato appositamente per mettere in difficoltà i modelli di IA e smascherarne gli eccessi di sicurezza che si verificano quando, nonostante la mancanza di conoscenze, le macchine si ostinano a spacciare per corrette delle risposte clamorosamente sbagliate. Il risultato? L'intelligenza artificiale non sa ancora tutto ma è troppo arrogante per ammetterlo.

Un test da 2.500 domande per sfidare l'IA

Il nuovo benchmark, descritto in uno studio pubblicato su Nature, consiste in un esame di 2.500 domande che spaziano dalla matematica alle scienze naturali, dalle discipline umanistiche alle lingue antiche. Molti quesiti richiedono conoscenze di livello universitario avanzato o addirittura specialistico. Per costruire l'esame, specialisti di tutto il mondo hanno elaborato quesiti con una sola risposta verificabile e difficili da trovare online. Prima di essere inclusa, ogni domanda veniva testata sui modelli di IA più avanzati: se la risposta risultava corretta, il quesito veniva eliminato.

Lo scopo dell'esperimento era quindi proporre un test volutamente "oltre il limite" delle capacità attuali delle macchine. Alcuni esempi per comprendere il tenore delle richieste: tradurre un'iscrizione nella lingua palmirena (la lingua parlata nella città siriana di Palmira tra il I e il III secolo d.C.), riconoscere alcune minuscole strutture anatomiche negli uccelli oppure analizzare i pattern fonetici dell'ebraico biblico.

Una parte consistente del test (circa il 41% delle domande) era invece dedicata ai problemi matematici più complessi. In questo modo i ricercatori hanno potuto valutare le capacità di ragionamento logico dell'IA, andando oltre la semplice verifica della sua potenza di calcolo.

I risultati: le macchine non sono ancora onniscienti

Sorprendentemente, quando i ricercatori hanno sottoposto il test ai modelli linguistici più avanzati, i risultati sono stati piuttosto modesti. Se infatti le versioni meno recenti dei modelli di Anthropic, Google, OpenAI hanno palesato grosse lacune nell'accuratezza delle risposte, anche i modelli che al momento dell'esperimento,risultavano i più avanzati (Claude 4 Sonetto, Gemini 2.5 Pro GPT-5) hanno evidenziato la presenza di notevoli margini di miglioramento per "ridurre il divario tra gli attuali LLM e le capacità accademiche di livello esperto su domande a risposta chiusa". Tradotto: per quanto promettente e in costante miglioramento, l'intelligenza artificiale deve ancora imparare molto prima di raggiungere le conoscenze e le capacità analitiche, logiche e deduttive raggiunte dall'umanità.

Non solo. Proprio come accade con chi, pur avendo conoscenze limitate, si esprime riguardo alcuni temi complessi, anche l'IA tende a mostrare una sicurezza mal riposta nella qualità delle sue risposte. Molti modelli hanno infatti palesato un alto grado di fiducia nelle proprie risposte anche quando queste risultavano errate o incomplete, segno che la capacità di valutare l'incertezza dei propri feedback è ancora limitata. Il più "arrogante" si è rivelato il modello di GPT-4o che a fronte di un ben misero punteggio di 2,7% di accuratezza ha mostrato un errore di calibrazione dell'89%. Più realistici 3.1 Pro di Gemini  e Chat GPT-5.2, rispettivamente con un errore di calibrazione del 50,3% e del 55,1%.

A cosa serve davvero il test

Nonostante il nome evocativo, gli autori del progetto hanno spiegato come "Humanity's Last Exam" non sia uno studio per annunciare l'arrivo dell'Apocalisse per l'intelligenza umana. Anzi, l'obiettivo è proprio comprendere meglio i limiti dell'IA in modo da rendere ancora più efficace quello che può rivelarsi lo strumento che porterà la società un nuovo step evolutivo.

Come sottolineato dal professor Tung Nguyen, docente della Texas A&M University, che ha contribuito con 73 quesiti alla scrittura e revisione del test, poter disporre di strumenti di valutazione affidabili è fondamentale per evitare interpretazioni fuorvianti riguardo una tecnologia sempre più impattante non solo nell'ambito della Ricerca, ma anche nel quotidiano del comune cittadino: "Senza test accurati, decisori politici, sviluppatori e utenti rischiano di sopravvalutare ciò che l'IA può realmente fare".

0 CONDIVISIONI
autopromo immagine
Più che un giornale
Il media che racconta il tempo in cui viviamo con occhi moderni
api url views