Nuovo studio: IA generativa come ChatGPT-4 fatica a estrarre dati dai referti medici
RomeRicercatori della Columbia University Mailman School of Public Health hanno esaminato le capacità di ChatGPT-4, un ampio modello linguistico, per verificare se fosse in grado di estrarre dettagli specifici dai registri medici. L'obiettivo era capire se l'IA potesse determinare se i ciclisti e i conducenti di monopattini coinvolti in incidenti indossavano il casco. Lo studio, pubblicato in JAMA Network Open, rivela che ChatGPT-4 presenta attualmente notevoli limitazioni in questo compito.
Nel periodo dal 2019 al 2022, i ricercatori hanno analizzato 54,569 visite al pronto soccorso causate da incidenti con vari dispositivi di micromobilità. ChatGPT-4 ha dimostrato di avere difficoltà di accuratezza e coerenza rispetto a un metodo di ricerca testuale tradizionale, con problemi principali tra cui:
- Risposte incoerenti nei vari tentativi consecutivi
- Difficoltà nel gestire frasi negate
- Maggiore coerenza nel replicare informazioni errate ("allucinazioni") rispetto a dati accurati
Le sfide sono preoccupanti perché gli LLM potrebbero essere molto utili nella sanità. Se ChatGPT-4 non è in grado di fornire informazioni accurate in modo consistente, potrebbe rallentare l'elaborazione dei dati nella ricerca medica e nell'assistenza ai pazienti.
Le note cliniche contengono molte informazioni mediche cruciali, ma accedervi in modo efficace e preciso può migliorare notevolmente la ricerca e l'assistenza ai pazienti. I metodi tradizionali, come le ricerche di testo basiche, spesso sono limitati perché non riescono a comprendere bene il contesto. I metodi avanzati di intelligenza artificiale offrono maggiore flessibilità, ma come mostra questo studio, i grandi modelli linguistici come ChatGPT-4 non sono ancora soluzioni affidabili.
I prompt utilizzati in questo studio hanno richiesto molti test per coprire tutti i testi importanti. Tuttavia, nonostante questo impegno, ChatGPT-4 spesso non è riuscito a fornire risultati accurati in modo costante nei vari giorni. Questo dimostra che la tecnologia non è ancora abbastanza affidabile e precisa per un utilizzo reale nel campo medico, dove tali caratteristiche sono fondamentali.
Il dottor Andrew Rundle, uno degli autori principali dello studio, ha dichiarato che, sebbene l'uso dell'IA generativa per ottenere informazioni possa essere più efficiente, presenta ancora problemi di affidabilità e può talvolta generare informazioni false. Questo implica che, nonostante il suo potenziale, i LLM non siano ancora in grado di sostituire o supportare adeguatamente i metodi attuali di acquisizione dati nella sanità.
Le tecnologie AI attualmente presentano limiti in settori critici come la sanità. Dobbiamo sviluppare metodi più affidabili prima di poter utilizzare in sicurezza i modelli linguistici di grandi dimensioni (LLMs) in contesti clinici. La ricerca è fondamentale, soprattutto per migliorare la comprensione del contesto dettagliato nelle note cliniche da parte dell'elaborazione del linguaggio naturale.
Lo studio è pubblicato qui:
http://dx.doi.org/10.1001/jamanetworkopen.2024.25981e la sua citazione ufficiale - inclusi autori e rivista - è
Kathryn G. Burford, Nicole G. Itzkowitz, Ashley G. Ortega, Julien O. Teitler, Andrew G. Rundle. Use of Generative AI to Identify Helmet Status Among Patients With Micromobility-Related Injuries From Unstructured Clinical Notes. JAMA Network Open, 2024; 7 (8): e2425981 DOI: 10.1001/jamanetworkopen.2024.259816 ottobre 2024 · 03:33
L'AI sfida l'uomo nella diagnosi di tumori cerebrali
4 ottobre 2024 · 18:04
Premi Nobel tra conflitti globali e progressi dell'IA
3 ottobre 2024 · 20:17
Google lancia le ricerche immagini con voce e IA
3 ottobre 2024 · 04:11
OpenAI ottiene un'impennata di investimenti di 6,6 miliardi di dollari
Condividi questo articolo