Ce qui s'est passé? Une équipe de l’Université d’État de Pennsylvanie a découvert qu’il n’est pas nécessaire d’être un hacker ou un génie de l’ingénierie rapide pour contourner la sécurité de l’IA ; les utilisateurs réguliers peuvent le faire tout aussi bien. Les tests présentés dans le document de recherche ont révélé des schémas évidents de préjugés dans les réponses : depuis l'hypothèse que les ingénieurs et les médecins sont des hommes, jusqu'à la représentation de femmes dans des rôles domestiques, et même l'association de personnes noires ou musulmanes avec la criminalité.
- 52 participants ont été invités à créer des invites destinées à déclencher des réponses biaisées ou discriminatoires dans 8 chatbots IA, dont Gemini et ChatGPT.
- Ils ont trouvé 53 invites qui fonctionnaient de manière répétée sur différents modèles, montrant des biais constants entre eux.
- Les préjugés exposés se répartissaient en plusieurs catégories : sexe, race/ethnicité/religion, âge, langue, handicap, préjugés culturels, préjugés historiques favorisant les nations occidentales, etc.
Ceci est important car : Ce n’est pas une histoire de jailbreakers d’élite. Les utilisateurs moyens, armés d’intuition et d’un langage courant, ont découvert des préjugés qui ont échappé aux tests de sécurité de l’IA. L'étude ne posait pas seulement des questions pièges ; il utilisait des invites naturelles, comme demander qui était en retard dans une histoire médecin-infirmière ou demander un scénario de harcèlement au travail.


- L’étude révèle que les modèles d’IA comportent encore de profonds préjugés sociaux (comme le sexe, la race, l’âge, le handicap et la culture) qui apparaissent avec des invites simples, ce qui signifie que des préjugés peuvent apparaître de nombreuses manières inattendues dans l’utilisation quotidienne.
- Notamment, les versions de modèles plus récentes n’étaient pas toujours plus sûres. Certains ont obtenu de moins bons résultats, démontrant que les progrès en termes de capacités ne signifient pas automatiquement des progrès en matière d'équité.
Pourquoi devrais-je m’en soucier ? Étant donné que les utilisateurs quotidiens peuvent déclencher des réponses problématiques dans les systèmes d’IA, le nombre réel de personnes capables de contourner les garde-fous de l’IA est bien plus important.
- Les outils d’IA utilisés dans les discussions quotidiennes, les outils de recrutement, les salles de classe, les systèmes de support client et les soins de santé peuvent reproduire subtilement des stéréotypes.
- Cela démontre que de nombreuses études axées sur l’IA et axées sur des attaques techniques complexes risquent de ne pas tenir compte des attaques réelles déclenchées par les utilisateurs.
- Si des invites régulières peuvent involontairement déclencher des préjugés, alors les préjugés ne font pas exception ; cela dépend de la façon dont ces outils pensent.
À mesure que l’IA générative devient courante, son amélioration nécessitera plus que des correctifs et des filtres ; il faudra de vrais utilisateurs tester l’IA sous contrainte.








