L’intelligence artificielle finira-t-elle par surpasser les médecins ? Selon une nouvelle étude, publiée dans la revue JAMA Internal Medicine, c’est parfois le cas en termes de raisonnement clinique et de diagnostic, mais il y a encore des erreurs.
Le diagnostic de l’intelligence artificielle comparé à celui des médecins
Les scientifiques du Beth Israel Deaconess Medical Center (BIDMC) ont utilisé ChatGPT-4, un programme d'intelligence artificielle s’appuyant sur les grands modèles de langue (ou LLM pour Large language models), c’est-à-dire un modèle qui possède de nombreux paramètres.
Selon l'Institut national de la santé et de la recherche médicale (Inserm), les LLM “encodent de grandes quantités de texte sous une forme qui enregistre la façon dont les mots et les phrases sont liés les uns aux autres. À partir de cet encodage, ils sont ensuite en mesure de faire des prédictions sur les mots qui pourraient en suivre d’autres.”
ChatGPT et les autres agents conversationnels fonctionnent selon ces modèles d’apprentissage et peuvent donc générer du texte (une réponse) qui suit une séquence d’amorçage (la question). Mais ils ne sont “pas capables de discerner ce qui est véridique de ce qui ne l’est pas”. En médecine, des recherches sont actuellement menées pour tester l’efficacité de l’intelligence artificielle pour prédire les risques, mieux adapter les traitements ou encore, comme c’est le cas de cette nouvelle étude, poser un diagnostic.
Lors de leurs travaux, les chercheurs ont comparé les diagnostics mais aussi les raisonnements cliniques de ChatGPT-4 à ceux de 21 médecins traitants et 18 médecins faisant une résidence, c’est-à-dire un stage post-doctoral, en médecine interne de deux centres médicaux universitaires.
"Très tôt, nous avons observé que les LLM peuvent poser des diagnostics, mais n’importe quel praticien sait que la médecine c’est bien plus que cela, explique Adam Rodman, médecin de médecine interne et chercheur au département de médecine du BIDMC, dans un communiqué. Un diagnostic comporte plusieurs étapes, nous voulions donc évaluer si les LLM étaient aussi efficaces que les médecins pour effectuer ce type de raisonnements cliniques. C’est une découverte surprenante que [les LLM] soient capables de montrer un raisonnement équivalent ou meilleur que celui des humains tout au long de l’évolution d’un cas clinique.”
Médecins et IA ont travaillé sur 20 cas cliniques. À chaque étape, les premiers devaient justifier de façon écrite leurs diagnostics. Pour comparer les résultats entre la machine et l’Homme, les chercheurs ont utilisé un outil appelé r-IDEA, qui est déjà utilisé pour évaluer les raisonnements cliniques des médecins.
"La première étape consiste à trier les données lorsque le patient vous dit ce qui le dérange et que vous mesurez les [constantes]", indique Stephanie Cabral, principale auteure de l’étude, dans un communiqué. La deuxième étape est [l’intégration] des informations supplémentaires du patient. La troisième étape est l’examen physique et la quatrième les tests diagnostiques et l’imagerie.”
L’intelligence artificielle a parfois “tout simplement tort”
Conclusions : ChatGPT-4 obtenait de meilleures notes r-IDEA - avec un score médian de 10 sur 10 - que les médecins traitants (9 sur 10) et les résidents (8 sur 10). Mais les chercheurs indiquent que les résultats étaient quasi-identiques entre l’intelligence artificielle et les médecins en termes de précision du diagnostic (la place du bon diagnostic parmi tous ceux proposés) et de raisonnement clinique.
En revanche, l’intelligence artificielle avait souvent “tout simplement tort”. Les chercheurs ont observé plus de cas de raisonnement incorrect pour ChatGPT-4 que chez les médecins.
"Des études supplémentaires sont nécessaires pour déterminer comment les LLM peuvent être intégrés au mieux dans la pratique clinique, mais même maintenant, ils pourraient être utiles [pour contrôler et] nous aider à ne rien manquer, indique Stéphanie Cabral. Mon plus grand espoir est que l’intelligence artificielle améliorera la relation patient-médecin, en réduisant [les faiblesses] que nous connaissons actuellement et en nous permettant de nous concentrer davantage sur la conversation que nous avons avec nos patients.”
Selon les chercheurs, ChatGPT-4 peut donc être un outil utile pour aider les médecins à poser un diagnostic, mais il ne peut pas les remplacer. De plus, comme le rappelle l’Inserm, “une prise en charge adaptée et réellement personnalisée repose aussi en partie sur la relation qu’entretient le médecin avec son patient, sur sa capacité à intégrer des éléments de contexte socio-culturels, à décrypter les états émotionnels de la personne en face de lui… Autant d’éléments que l’IA est encore bien loin de pouvoir intégrer.”