ChatGPT ha superato l’esame per diventare medico: ha solo un problema

ChatGPT-4 ha passato il test obbligatorio nel Regno Unito per ottenere la licenza medica. In un mondo parallelo abitato dalle intelligenze artificiali, questo significherebbe che potrebbe effettivamente visitare, fare diagnosi e somministrare cure.
Sembra la trama di una nuova puntata di Black Mirror – qui abbiamo commentato il vero tema centrale dell'ultima stagione – ma si tratta invece del risultato di uno studio accademico realizzato da un gruppo di ricercatori universitari inglesi che hanno testato le competenze mediche di ChatGPT-4, l'ultimo modello di ChatGPT, trattandolo alla pari di un aspirante medico umano.
A quali domande ha risposto ChatGPT
Nel Regno Unito infatti sia i laureati in Medicina che medici provenienti da altri Paesi per poter esercitare la professione devono passare un test standardizzato, il Medical Licensing Assessment (MLA) o United Kingdom Medical Licensing Assessment (UKMLA), ovvero letteralmente "valutazione delle licenze mediche del Regno Unito". L'obiettivo era "confrontare la competenza medica di GPT-4 – scrivono i ricercatori – con il livello previsto per un medico junior del Regno Unito e discutere il suo potenziale nella pratica clinica". I risultati sono stati pubblicati su Scientific Reports.
In concreto, i ricercatori hanno posto a ChatGPT ben 191 domande che rientravano in 24 aree cliniche organizzate in due documenti da 100 domande. Di queste nove domande sono state escluse perché si basavano su immagini e ChatGPT non è stato in grado di rispondere. Inoltre, ciascuna delle domande è stata posta sia con risposte a scelta multipla, che in modo completamente aperto.
ChatGPT-4 ha risposto in modo accurato alla maggior parte delle domande, rispondendo con una precisione dell'86,3% e dell'89,6% alle domande a scelta multipla nei due documenti. Tuttavia, senza le opzioni a scelta multipla, la sua precisione è diminuita, scendendo al 61,5% per il primo documento e al 74,7% per il secondo. Anche se in otto domande, ChatGPT ha risposto meglio senza opzioni, forse perché queste potrebbero aver agito da "distrattori" influenzando le sue risposte.
Ci sono però una serie di sfumature che i ricercatori hanno evidenziato: ad esempio, in generale l'intelligenza artificiale rispondeva meglio alle domande che richiedevano soltanto un passaggio di ragionamento, con una differenza significativa rispetto a quelle più complesse. "Gli LLM (i modelli linguistici di grandi dimensioni) – commentano gli autori – sono in grado di elaborare con competenza scenari clinici ma rimangono incapaci di comprendere questi scenari clinici".
Bravo a diagnosticare, meno a curare
Tra i vari risultati è emerso però un punto importante: ChatGPT è stato "bravo" nelle domande diagnostiche – precisione di risposte al 91,2% con suggerimenti e l'84,2% senza suggerimenti – ma non altrettanto nelle domande relative alla gestione clinica, soprattutto se poste senza opzioni multiple: la precisione in questo ambito è scesa al 51,2%.
In definitiva, ChatGPT ha superato l'esame, ma con l'aiuto delle opzioni multiple funziona meglio, inoltre ha mostrato un grado inferiore di efficienza nella pratica clinica. Questo studio dimostra che ChatGPT è in grado di superare l'UKMLA, "ma – chiariscono i ricercatori – è più adatto come strumento supplementare, di monitoraggio o di apprendimento piuttosto che come diagnosi o interazione ospedaliera".