Les gens utilisent déjà des chatbots IA comme moteurs de recherche pour obtenir des informations quotidiennes sur la santé. Cette habitude semble plus risquée après qu'une nouvelle étude a révélé que la moitié des réponses de cinq robots majeurs étaient problématiques, même lorsque les réponses semblaient soignées et confiantes.
Les chercheurs ont testé ChatGPT, Gemini, Grok, Meta AI et DeepSeek avec 250 invites sur le cancer, les vaccins, les cellules souches, la nutrition et les performances sportives.
Les invites reflétaient des questions de santé courantes et des thèmes familiers de désinformation, puis mesuraient si les robots restaient alignés sur les preuves scientifiques ou dérivaient vers des conseils trompeurs et potentiellement dangereux.
Les questions générales ont révélé les plus grandes lacunes
Les résultats les plus faibles provenaient des invites ouvertes. Ces questions plus larges ont produit des réponses beaucoup plus problématiques que prévu, tandis que les invites fermées étaient plus susceptibles de produire des réponses plus sûres.
C'est important parce que les vraies personnes ne posent généralement pas de questions médicales dans un format ordonné et à choix multiples. Ils se demandent si un traitement fonctionne, si un vaccin est sûr ou ce qui pourrait améliorer les performances sportives.
Dans l’étude, ce genre d’invite a poussé les robots vers des réponses mêlant des preuves solides à des affirmations plus faibles ou trompeuses.
Forte confiance, sourcing fragile
Les défauts ne s’arrêtent pas aux réponses elles-mêmes. La qualité des références était médiocre, avec un score d’exhaustivité moyen de 40 %, et aucun des chatbots n’a produit une liste de références totalement précise.
Cela affaiblit l’une des principales raisons pour lesquelles les gens font confiance aux réponses des chatbots. Une réponse peut sembler fondée et faisant autorité, puis s'effondrer une fois les citations vérifiées.


Les chercheurs ont également signalé des références fabriquées, tandis que les robots répondaient toujours avec certitude et n’offraient pratiquement aucune mise en garde.
Pourquoi c'est important au-delà d'un seul test
Il y a des limites aux résultats. L'étude n'a porté que sur cinq chatbots, ces produits évoluent rapidement et les invites ont été conçues pour mettre l'accent sur les modèles, ce qui peut surestimer la fréquence à laquelle de mauvaises réponses apparaissent dans l'utilisation quotidienne.
Pourtant, le principal point à retenir est difficile à ignorer. Ces systèmes ont été testés sur des sujets médicaux fondés sur des preuves, et la moitié des réponses restent erronées ou incomplètes.
Pour l’instant, les chatbots peuvent aider à résumer des informations ou à formuler des questions de suivi, mais ils ne semblent toujours pas suffisamment fiables pour prendre des décisions médicales significatives.







