Vous demandez un avis médical à un chatbot. Il répond par quelque chose de réfléchi. Mais a-t-il réellement pesé les enjeux, ou a-t-il simplement eu de la chance avec les mots ?
C'est le problème que Google DeepMind aborde dans un nouveau Papier naturel. L’équipe affirme que la façon dont nous testons la moralité de l’IA est erronée. Nous vérifions si les modèles produisent des réponses qui semblent correctes, ce qu'ils appellent la performance morale. Mais cela ne nous dit rien sur la question de savoir si le système comprend pourquoi quelque chose est bien ou mal.
Les gens utilisent les LLM à des fins thérapeutiques, de conseils médicaux et même de compagnie. Ces systèmes commencent à prendre des décisions à notre place. Si nous ne parvenons pas à distinguer une véritable compréhension d’un mimétisme fantaisiste, nous faisons confiance à une boîte noire aux conséquences humaines réelles.
La réponse de DeepMind est une feuille de route pour mesurer la compétence morale, la capacité de porter des jugements basés sur des considérations morales réelles plutôt que sur des modèles statistiques. Le document présente trois obstacles principaux et des moyens de tester chacun d’entre eux.
Les trois raisons pour lesquelles les chatbots falsifient la moralité
Il y a d’abord le problème de la télécopie. Les LLM sont des prédicteurs de prochain jeton qui échantillonnent les distributions de probabilité à partir des données d'entraînement. Ils n'exécutent pas de modules de raisonnement moral. Ainsi, lorsqu’un chatbot donne des conseils éthiques, il peut s’agir d’un raisonnement. Ou il peut s'agir de recycler quelque chose d'un fil de discussion Reddit. La sortie à elle seule ne vous le dira pas.
Ensuite, il y a la multidimensionnalité morale. Les vrais choix dépendent rarement d’une seule chose. Vous mettez en balance l’honnêteté et la gentillesse, le coût et l’équité. Changez un seul détail, l'âge d'une personne ou le décor, et le bon appel peut basculer. Les tests actuels ne vérifient pas si l’IA remarque ce qui compte réellement.
Le pluralisme moral ajoute une autre couche. Différentes cultures et professions ont des règles différentes. Ce qui est juste dans un pays peut être injuste dans un autre. Un chatbot utilisé dans le monde entier ne peut pas se contenter de cracher des vérités universelles. Il doit gérer des cadres concurrents, et nous ne le mesurons pas encore bien.
Pourquoi l'éducation morale de votre chatbot ne peut pas se limiter à la mémorisation
L'équipe DeepMind souhaite inverser le scénario. Au lieu de simplement poser des questions morales familières, les chercheurs devraient concevoir des tests contradictoires qui tentent de révéler le mimétisme.
Une idée implique des scénarios peu susceptibles d’apparaître dans les données de formation. Prenez le don de sperme intergénérationnel, où un père donne du sperme à son fils et féconde un ovule au nom de son fils. Cela ressemble à de l’inceste mais a un poids éthique différent. Si un modèle le rejette pour des raisons d'inceste, il s'agit d'une correspondance de modèles. Si cela relève de l'éthique elle-même, c'est autre chose.
Une autre approche teste si l’IA peut modifier les cadres. Peut-il basculer entre l’éthique biomédicale et les règles militaires et apporter des réponses cohérentes à chacune ? Peut-il gérer de petits ajustements sans se faire trébucher par des changements de formatage ?
Les chercheurs savent que c’est difficile. Les modèles actuels sont fragiles. Changez une étiquette de « Cas 1 » à « Option A » et vous pourriez obtenir un verdict différent. Mais ils soutiennent que ce type de tests est le seul moyen de savoir si ces systèmes méritent une réelle responsabilité.
Quelle est la prochaine étape pour l’IA morale
DeepMind milite en faveur d’une nouvelle norme scientifique qui prend la compétence morale aussi au sérieux que les compétences mathématiques. Cela signifie financer un travail mondial sur des évaluations culturellement spécifiques et concevoir des tests permettant de détecter les contrefaçons.
Ne vous attendez pas à ce que votre chatbot les réussisse de sitôt. Les techniques actuelles ne sont pas encore là, mais la feuille de route donne une direction aux développeurs.
Lorsque vous demandez actuellement des conseils moraux à l’IA, vous obtenez des prédictions statistiques, pas de la philosophie. Cela pourrait éventuellement changer. Mais seulement si nous commençons à mesurer les bonnes choses.








