L'IA générative peine à extraire des informations fiables des notes cliniques, selon une étude
ParisDes chercheurs de la Mailman School of Public Health de l'Université Columbia ont évalué ChatGPT-4, un grand modèle linguistique, pour déterminer s'il peut extraire des informations spécifiques des dossiers médicaux. Leur objectif était de savoir si cette IA pouvait identifier si les utilisateurs de trottinettes et vélos blessés portaient des casques au moment de leurs accidents. L'étude, publiée dans JAMA Network Open, révèle que ChatGPT-4 présente actuellement des limitations importantes pour cette tâche.
Lors de cette étude, les chercheurs ont analysé 54 569 visites aux urgences entre 2019 et 2022, impliquant des blessures associées à l'utilisation de divers dispositifs de micromobilité. ChatGPT-4 a rencontré des difficultés en termes de précision et de cohérence par rapport à une méthode de recherche textuelle standard. Les principaux problèmes comprenaient :
- Réponses incohérentes d'un essai à l'autre
- Difficulté à gérer les phrases négatives
- Meilleure constance à reproduire des informations incorrectes ("hallucinations") que des données précises
Les défis sont préoccupants car les LLMs pourraient être extrêmement bénéfiques pour la santé. Si ChatGPT-4 ne peut pas fournir constamment des informations précises, cela pourrait ralentir le traitement des données dans la recherche médicale et les soins aux patients.
Les notes cliniques renferment une multitude d'informations médicales cruciales, mais leur accès efficace et précis peut considérablement améliorer la recherche et les soins aux patients. Les méthodes traditionnelles comme les recherches textuelles basiques sont souvent limitées car elles ne comprennent pas bien le contexte. Les méthodes avancées d'IA offrent plus de souplesse, mais comme le montre cette étude, les grands modèles de langage tels que ChatGPT-4 ne constituent pas encore des solutions fiables.
Les prompts utilisés dans cette étude ont nécessité de nombreux essais pour couvrir tous les textes importants. Cependant, malgré ces efforts, ChatGPT-4 n'a souvent pas réussi à fournir des résultats précis de manière constante selon les jours. Cela démontre que la technologie n'est pas encore suffisamment fiable et précise pour une utilisation médicale réelle, où la fiabilité et la précision sont essentielles.
Le Dr. Andrew Rundle, principal auteur de l'étude, a déclaré que bien que l'utilisation de l'IA générative pour obtenir des informations pourrait être plus efficace, elle a encore des problèmes de fiabilité et de production occasionnelle de fausses informations. Cela signifie que, bien qu'elle soit prometteuse, les modèles de langage ne sont pas encore capables de remplacer ou d'aider correctement les méthodes actuelles de collecte de données en santé.
Les technologies d'IA présentent actuellement des limites dans des domaines cruciaux, comme celui de la santé. Avant d'utiliser des modèles de langage étendus (LLMs) en milieu clinique, il est impératif de développer des méthodes plus fiables. La recherche revêt une importance particulière, notamment pour améliorer le traitement automatique du langage afin de mieux saisir le contexte détaillé des notes cliniques.
L'étude est publiée ici:
http://dx.doi.org/10.1001/jamanetworkopen.2024.25981et sa citation officielle - y compris les auteurs et la revue - est
Kathryn G. Burford, Nicole G. Itzkowitz, Ashley G. Ortega, Julien O. Teitler, Andrew G. Rundle. Use of Generative AI to Identify Helmet Status Among Patients With Micromobility-Related Injuries From Unstructured Clinical Notes. JAMA Network Open, 2024; 7 (8): e2425981 DOI: 10.1001/jamanetworkopen.2024.259812 octobre 2024 · 22:15
La CIA optimise les communications sécurisées des sources
Partager cet article