Les chatbots peuvent sembler neutres, mais une nouvelle étude suggère que certains modèles choisissent encore leur camp d’une manière familière. Lorsqu’ils sont interrogés sur les groupes sociaux, les systèmes ont tendance à être plus chaleureux à l’égard d’un groupe interne et plus froids à l’égard d’un groupe externe. Ce modèle est un marqueur essentiel des préjugés sociaux de l’IA.
La recherche a testé plusieurs grands modèles, notamment GPT-4.1 et DeepSeek-3.1. L'étude a également révélé que l'effet peut être modifié par la manière dont vous formulez une demande, ce qui est important car les invites quotidiennes incluent souvent des étiquettes d'identité, intentionnellement ou non.
Il y a aussi un point à retenir plus constructif. La même équipe rapporte une méthode d'atténuation, ION (Ingroup-Outgroup Neutralization), qui a réduit la taille de ces écarts de sentiment, ce qui laisse entendre que ce n'est pas seulement quelque chose avec lequel les utilisateurs doivent vivre.
Le biais est apparu dans tous les modèles
Les chercheurs ont incité plusieurs grands modèles linguistiques à générer du texte sur différents groupes, puis ont analysé les résultats pour déterminer les modèles de sentiments et le regroupement. Le résultat était un langage reproductible, plus positif pour les groupes internes, et un langage plus négatif pour les groupes externes.
Cela ne se limitait pas à un seul écosystème. Le document répertorie GPT-4.1, DeepSeek-3.1, Llama 4 et Qwen-2.5 parmi les modèles dans lesquels le modèle est apparu.
Des invites ciblées l’ont intensifié. Dans ces tests, le langage négatif destiné aux groupes externes a augmenté d'environ 1,19 % à 21,76 % selon la configuration.
Où cela se produit dans les produits réels
L'article soutient que le problème va au-delà de la connaissance factuelle des groupes, les indices identitaires pouvant déclencher des attitudes sociales dans l'écriture elle-même. En d’autres termes, le modèle peut dériver vers une voix codée en groupe.
C'est un risque pour les outils qui résument les arguments, réécrivent les plaintes ou modèrent les messages. De petits changements de chaleur, de blâme ou de scepticisme peuvent changer ce que les lecteurs en retirent, même lorsque le texte reste fluide.
Les invites Persona ajoutent un autre levier. Lorsqu’il a été demandé aux modèles de répondre en tant qu’identités politiques spécifiques, les résultats ont changé en termes de sentiment et de structure d’intégration. Utile pour le jeu de rôle, risqué pour les assistants « neutres ».
Un chemin d’atténuation mesurable
ION combine un réglage fin avec une étape d'optimisation des préférences pour réduire les différences de sentiment entre les groupes et les groupes externes. Dans les résultats publiés, cela a réduit la divergence de sentiment jusqu'à 69 %.
C'est encourageant, mais le document ne donne pas de calendrier d'adoption par les fournisseurs de modèles. Donc, pour l’instant, il appartient aux constructeurs et aux acheteurs de traiter cela comme une mesure de version, et non comme une note de bas de page.
Si vous expédiez un chatbot, ajoutez des tests d'identité et des invites personnelles au contrôle qualité avant le déploiement des mises à jour. Si vous êtes un utilisateur quotidien, conservez les invites ancrées dans les comportements et les preuves plutôt que dans les étiquettes de groupe, en particulier lorsque le ton est important.








