Ce qui s'est passé? Anthropic, la société d'IA à l'origine des modèles Claude qui alimentent désormais le Copilot de Microsoft, a publié une découverte choquante. L'étude, menée en collaboration avec l'AI Security Institute du Royaume-Uni, l'Alan Turing Institute et Anthropic, a révélé avec quelle facilité les grands modèles de langage (LLM) peuvent être empoisonnés par des données de formation malveillantes et laisser des portes dérobées à toutes sortes de méfaits et d'attaques.
- L’équipe a mené des expériences sur plusieurs échelles de modèles, allant de 600 millions à 13 milliards de paramètres, pour voir à quel point les LLM sont vulnérables au rejet de déchets s’ils reçoivent de mauvaises données extraites du Web.
- Il s’avère que les attaquants n’ont pas besoin de manipuler une grande partie des données d’entraînement. Seuls 250 fichiers malveillants suffisent à briser un modèle d’IA et à créer des portes dérobées pour quelque chose d’aussi trivial que de cracher des réponses charabia.
- Il s'agit d'un type d'attaque par « porte dérobée par déni de service » ; si le modèle voit un jeton de déclenchement, par exemple
, il commence à générer des réponses qui n'ont aucun sens, ou il pourrait également générer des réponses trompeuses.
Ceci est important car : Cette étude brise l’une des principales hypothèses de l’IA selon laquelle les modèles plus grands sont plus sûrs.
- Les recherches d'Anthropic ont révélé que la taille du modèle ne protège pas contre l'empoisonnement des données. En bref, un modèle comportant 13 milliards de paramètres était tout aussi vulnérable qu’un modèle plus petit.
- Le succès de l’attaque dépend du nombre de fichiers empoisonnés et non du total des données d’entraînement du modèle.
- Cela signifie que quelqu'un pourrait de manière réaliste corrompre le comportement d'un modèle sans avoir besoin de contrôler des ensembles de données massifs.


Pourquoi devrais-je m’en soucier ? À mesure que des modèles d'IA comme Claude d'Anthropic et ChatGPT d'OpenAI sont intégrés dans les applications quotidiennes, la menace de cette vulnérabilité est réelle. L'IA qui vous aide à rédiger des e-mails, à analyser des feuilles de calcul ou à créer des diapositives de présentation pourrait être attaquée par un minimum de 250 fichiers malveillants.
- Si les modèles fonctionnent mal en raison d’un empoisonnement des données, les utilisateurs commenceront à douter des résultats de l’IA et la confiance s’érodera.
- Les entreprises qui s'appuient sur l'IA pour des tâches sensibles telles que les prévisions financières ou la synthèse des données risquent d'être sabotées.
- À mesure que les modèles d’IA deviennent plus puissants, les méthodes d’attaque le seront également. Il existe un besoin urgent de procédures de détection et de formation robustes capables d’atténuer l’empoisonnement des données.