Carsten Eickhoff est professeur, science des données médicales, Université de Tübingen
Imaginez que l’on vient de vous diagnostiquer un cancer à un stade précoce et que, avant votre prochain rendez-vous, vous posiez une question à un chatbot (agent conversationnel) d’IA : « Quelles cliniques alternatives peuvent traiter le cancer avec succès ? » En quelques secondes, vous obtenez une réponse soignée, accompagnée de notes de bas de page, qui donne l’impression d’avoir été rédigée par un médecin. Sauf que certaines affirmations sont infondées, que les notes de bas de page ne mènent nulle part et que le chatbot ne suggère jamais que la question elle-même pourrait être mal posée.
Ce scénario n’est pas hypothétique. C’est, en gros, ce qu’une équipe de sept chercheurs a constaté en soumettant cinq des chatbots les plus populaires au monde à un test systématique de résistance en matière d’information de santé. Les résultats sont publiés dans BMJ Open.
Les chatbots — ChatGPT, Gemini, Grok, Meta AI et DeepSeek — ont chacun reçu 50 questions de santé et de médecine couvrant le cancer, les vaccins, les cellules souches, la nutrition et la performance sportive. Deux experts ont évalué indépendamment chaque réponse. Ils ont constaté que près de 20 % des réponses étaient hautement problématiques, que la moitié étaient problématiques et que 30 % étaient quelque peu problématiques. Aucun des chatbots n’a fourni de manière fiable des listes de références entièrement exactes, et seulement deux questions sur 250 ont été refusées.
Dans l’ensemble, les cinq chatbots ont obtenu des performances à peu près similaires. Grok a été le moins performant, avec 58 % de ses réponses jugées problématiques, suivi de ChatGPT à 52 % et de Meta AI à 50 %.
Les performances variaient toutefois selon le sujet. Les chatbots s’en sortaient le mieux avec les vaccins et le cancer — des domaines disposant de vastes corpus de recherche bien structurés — mais produisaient malgré tout des réponses problématiques environ un quart du temps. Ils éprouvaient le plus de difficultés avec la nutrition et la performance sportive, des domaines saturés de conseils contradictoires en ligne et où les preuves rigoureuses sont plus rares.
Ce sont les questions ouvertes qui ont posé le plus de problèmes : 32 % de ces réponses ont été jugées hautement problématiques, contre seulement 7 % pour les questions fermées. Cette distinction est importante, car la plupart des questions de santé dans la vie réelle sont ouvertes. Les gens ne posent pas des questions simples de type vrai ou faux aux chatbots. Ils demandent des choses comme : « Quels compléments sont les meilleurs pour la santé globale ? » C’est le type de requête qui appelle une réponse fluide et confiante, mais potentiellement trompeuse.
Lorsque les chercheurs ont demandé à chaque chatbot de fournir dix références scientifiques, le score médian (la valeur centrale) d’exhaustivité n’était que de 40 %. Aucun chatbot n’a réussi à produire une seule liste de références entièrement exacte en 25 tentatives. Les erreurs allaient d’auteurs incorrects et de liens brisés à des articles entièrement inventés. C’est un risque particulier, car les références donnent une impression de preuve. Un lecteur non spécialiste qui voit une liste de citations bien formatée a peu de raisons de douter du contenu qui la précède.
Pourquoi les chatbots se trompent
Il existe une raison simple pour laquelle les chatbots se trompent sur des questions médicales. Les modèles de langage ne « savent » rien. Ils prédisent le mot suivant le plus probable sur le plan statistique en fonction de leurs données d’entraînement et du contexte. Ils ne pèsent pas les preuves et ne portent pas de jugements de valeur. Leurs données d’entraînement incluent des articles évalués par les pairs, mais aussi des discussions sur Reddit, des blogs de bien-être et des débats sur les réseaux sociaux.
Les chercheurs n’ont pas posé des questions neutres. Ils ont délibérément conçu des requêtes destinées à pousser les chatbots à donner des réponses trompeuses — une technique classique de test de robustesse en recherche sur la sécurité de l’IA, appelée « red teaming ». Cela signifie que les taux d’erreur surestiment probablement ce que vous obtiendriez avec une formulation plus neutre. L’étude a également testé les versions gratuites de chaque modèle disponible en février 2025. Les versions payantes et les versions plus récentes peuvent offrir de meilleures performances.
Néanmoins, la plupart des gens utilisent ces versions gratuites, et la plupart des questions de santé ne sont pas formulées avec soin. Les conditions de l’étude reflètent donc, si ce n’est davantage, la manière dont les gens utilisent réellement ces outils.
Les conclusions de l’article ne sont pas isolées ; elles s’inscrivent dans un ensemble croissant de preuves dressant un tableau cohérent.
Une étude de février 2026 publiée dans Nature Medicine a révélé un résultat surprenant. Les chatbots eux-mêmes pouvaient donner la bonne réponse médicale dans près de 95 % des cas. Mais lorsque de vraies personnes utilisaient ces mêmes agents, elles n’obtenaient la bonne réponse que dans moins de 35 % des cas — pas mieux que celles qui ne les utilisaient pas du tout. En termes simples, le problème ne réside pas seulement dans la capacité du chatbot à fournir la bonne réponse, mais aussi dans la capacité des utilisateurs ordinaires à comprendre et à utiliser correctement cette réponse.
Une étude récente publiée dans Jama Network Open a testé 21 modèles d’IA de premier plan. Les chercheurs leur ont demandé d’établir des diagnostics médicaux possibles. Lorsque les modèles ne disposaient que d’informations de base — comme l’âge, le sexe et les symptômes d’un patient —, ils rencontraient des difficultés, échouant à proposer le bon ensemble de diagnostics possibles dans plus de 80 % des cas. Une fois que les chercheurs ont ajouté des résultats d’examens et d’analyses, la précision dépassait 90 %.
Par ailleurs, une autre étude américaine, publiée dans Nature Communications Medicine, a montré que les chatbots reprenaient facilement, et développaient même, des termes médicaux inventés introduits dans les requêtes.
Pris ensemble, ces études suggèrent que les faiblesses observées en évidence dans l’étude du BMJ Open ne sont pas des particularités liées à une seule méthode expérimentale, mais reflètent quelque chose de plus fondamental quant à l’état actuel de la technologie.
Ces chatbots ne vont pas disparaître, et ce n’est pas souhaitable. Ils peuvent résumer des sujets complexes, aider à préparer des questions à poser à un médecin et servir de point de départ à une recherche. Mais l’étude montre clairement qu’ils ne doivent pas être considérés comme des autorités médicales autonomes.
Si vous utilisez l’un de ces chatbots pour obtenir des conseils médicaux, vérifiez toute affirmation concernant la santé, considérez ses références comme des pistes à examiner plutôt que comme des faits établis, et soyez attentif aux réponses qui paraissent assurées, mais ne comportent aucune mise en garde.
Texte original publié le 20 avril 2026 : https://theconversation.com/half-of-ai-health-answers-are-wrong-even-though-they-sound-convincing-new-study-280512