Si, en médecine, ChatGPT peut rédiger des notes cliniques ou répondre à des questions théoriques, il ne pourrait pas s’avérer aussi efficace, en pratique, dans les services d’urgences des hôpitaux, bien au contraire. D’après une nouvelle étude publiée dans la revue Nature Communications, l’intelligence artificielle (IA) peut en effet suggérer des examens inutiles, prescrire des traitements inappropriés ou encore admettre à l’hôpital des patients qui n’en auraient pas besoin. Bref, elle ne serait pas à la hauteur du jugement clinique d’un médecin en chair et en os.
"Voici un message précieux adressé aux cliniciens : ne pas faire aveuglément confiance à l’IA", avertit Chris Williams, auteur principal de l’étude et chercheur à l’Université de Californie à San Francisco (UCSF), aux Etats-Unis. Selon lui, si ChatGPT peut être utile dans certaines tâches précises, il n’est pas conçu pour gérer des situations complexes impliquant plusieurs facteurs, comme celles que l’on rencontre dans un service des urgences.
ChatGPT moins fiable que les médecins en service d’urgences
Dans une étude antérieure, l’équipe de scientifiques avait montré que ChatGPT était légèrement plus performant que les humains pour identifier lequel de deux patients était le plus malade dans une situation simple. Mais cette fois, elle a posé un défi bien plus complexe à l'IA : formuler des recommandations après un examen initial en salle d'urgence, notamment en ce qui concerne l'admission, les radiographies ou les prescriptions d'antibiotiques.
Pour évaluer la précision de ChatGPT, les chercheurs ont analysé 1.000 visites aux urgences, en se basant sur les dossiers médicaux de l’UCSF. Les décisions de l’IA ont ensuite été comparées à celles prises par des médecins résidents. Résultat ? ChatGPT-3.5 et ChatGPT-4 se sont avérés, respectivement, 24 % et 8 % moins précis que les praticiens. Ce qui n’est pas surprenant, car ces modèles d’IA, formés principalement à partir de données en ligne, ont tendance à surprescrire et à recommander des soins médicaux non nécessaires.
La prudence excessive de l’IA en matière médicale
"Les outils ChatGPT sont presque réglés pour dire 'Veuillez consulter un médecin'" et jouer la prudence au maximum, résume Chris Williams. Sauf que, "dans un contexte d’urgence, où la moindre erreur peut avoir des conséquences graves, cette prudence excessive se traduit par des interventions inutiles, ce qui peut causer du tort aux patients, surcharger les ressources de l’hôpital et augmenter les coûts".
Selon le chercheur, pour que l’IA puisse être intégrée efficacement dans les services d'urgences, il est crucial de développer des cadres de travail qui permettent d’évaluer correctement les informations cliniques. Il faut trouver un équilibre entre la détection des problèmes graves et la prévention des interventions inutiles. "Il n’y a pas de solution parfaite", reconnaît-il.