Uno studio medico boccia ChatGPT Health: l’IA fatica a riconoscere le emergenze e confonde i sintomi

Lo scorso 7 gennaio OpenAI ha presentato una nuova funzione di ChatGPT destinata, almeno nelle intenzioni, a rivoluzionare il rapporto tra utenti e intelligenza artificiale nella ricerca di informazioni sanitarie. ChatGPT Health è infatti una sezione del chatbot in cui non solo è possibile ottenere risposte personalizzate su salute e benessere, ma anche caricare i referti medici e le cartelle cliniche per ricevere pareri e suggerimenti.
Ora, però, una valutazione indipendente condotta dai ricercatori della Icahn School of Medicine at Mount Sinai (New York) ha messo alla prova funzionamento e protocolli di sicurezza di ChatGPT Health, facendo emergere numerose perplessità, soprattutto sull'affidabilità degli strumenti di intelligenza artificiale quando si tratta di decisioni sanitarie urgenti.
Il metodo: 60 scenari realistici per testare l'IA
Le considerazioni del team di esperti sono stati pubblicate sulla rivista Nature Medicine. Coordinato da Ashwin Ramaswamy, il gruppo di ricercatori ha ricreato 60 casi clinici realistici, distribuiti in 21 specialità mediche e riguardanti diversi livelli di gravità, dai lievi disturbi alle vere e proprie emergenze. Tre medici indipendenti hanno stabilito il livello corretto di urgenza seguendo le linee guida di 56 società scientifiche. Gli scenari sono stati poi testati in 16 varianti ciascuno, cambiando genere, contesto sociale o ostacoli alle cure, per un totale di 960 interazioni che sono poi state sottoposte a un giudizio clinico. "Volevamo rispondere alla domanda più semplice e fondamentale: se qualcuno è in una vera emergenza e chiede aiuto, il sistema dirà di andare al pronto soccorso?" ha spiegato Ramaswamy.
Quando l'IA sottovaluta il rischio
I risultati hanno mostrato che, pur riconoscendo correttamente emergenze evidenti come ictus o shock anafilattico, ChatGPT ha comunque sottostimato oltre la metà dei casi che richiedevano cure immediate. In uno scenario nel quale un ipotetico paziente ha descritto al chatbot i sintomi di un forte attacco d'asma, ad esempio, l'IA ha sì individuato i segnali di un'insufficienza respiratoria ma ha comunque consigliato di attendere prima di correre in ospedale. Un consiglio che, nella vita reale, si sarebbe potuto rivelare fatale per un paziente.
Il problema delle idee suicide
Particolarmente preoccupante il comportamento del sistema nei casi in cui un paziente sembra pianificare un suicidio. Si tratta di un aspetto molto controverso nel rapporto tra tecnologia e utenti. Su ChatGPT Health i ricercatori hanno però osservato come l'avviso di emergenza con contatti di supporto venisse gestito in modo incoerente: in alcune simulazioni veniva attivato persino quando il rischio era minimo, mentre in altre, molto più critiche, restava silente anche quando l'utente descriveva esplicitamente l'intenzione e le modalità con cui avrebbe potuto farsi del male. Una discrepanza che, secondo Girish N. Nadkarni del Mount Sinai Health System, rappresenta un segnale preoccupante: "Gli avvisi erano invertiti rispetto al rischio clinico. Nella vita reale, descrivere come ci si farebbe del male è un segno di pericolo immediato e grave, non minore".
Implicazioni e interrogativi aperti
Secondo Isaac S. Kohane, Presidente del Dipartimento di Informatica Biomedica della Harvard Medical School (non coinvolto direttamente nello studio ma contattato in occasione della presentazione del rapporto), quando milioni di persone usano questi sistemi per decidere se andare in ospedale "la posta in gioco è straordinariamente alta" e le verifiche indipendenti dovrebbero essere la norma. Anche Paul Henman della University of Queensland ha definito sul Guardian la ricerca come "molto importante", avvertendo che un uso domestico diffuso di questo chatbot potrebbe portare sia ad accessi inutili alle strutture sanitarie sia a mancati interventi urgenti, con possibili danni o decessi evitabili.
Gli autori hanno sottolineato che lo studio fotografa il sistema in un momento specifico e che i modelli vengono aggiornati di frequente. Non invitano insomma ad abbandonare l'uso dell'IA in ambito sanitario, ma raccomandano la massima prudenza. In presenza di sintomi universalmente riconosciuti come "gravi" (dolore toracico, difficoltà respiratorie, alterazioni mentali) è sempre preferibile rivolgersi direttamente a un medico, senza passare dai suggerimenti di un chatbot. Il gruppo di ricerca prevede ulteriori valutazioni su versioni future e su altri ambiti, dalla pediatria alla sicurezza dei farmaci.