Votre navigateur IA peut être piraté par injection rapide, OpenAI vient de mettre à jour Atlas

Votre navigateur IA peut être piraté par injection rapide, OpenAI vient de mettre à jour Atlas

OpenAI a livré une mise à jour de sécurité à ChatGPT Atlas visant à injecter rapidement dans les navigateurs IA des attaques qui cachent des instructions malveillantes dans le contenu quotidien qu'un agent peut lire pendant son travail.

Le mode agent d'Atlas est conçu pour agir dans votre navigateur comme vous le feriez : il peut afficher des pages, cliquer et taper pour effectuer des tâches dans le même espace et dans le même contexte que vous utilisez. Cela en fait également une cible de plus grande valeur, car l'agent peut rencontrer du texte non fiable dans les e-mails, les documents partagés, les forums, les publications sur les réseaux sociaux et toute page Web qu'il ouvre.

Le principal avertissement de l’entreprise est simple. Les pirates peuvent tromper la prise de décision de l'agent en introduisant clandestinement des instructions dans le flux d'informations qu'il traite en cours de tâche.

Une instruction cachée, de grandes conséquences

L'article d'OpenAI souligne à quelle vitesse les choses peuvent mal tourner. Un attaquant envoie dans une boîte de réception un e-mail malveillant contenant des instructions écrites pour l'agent, et non pour l'humain.

Plus tard, lorsque l'utilisateur demande à Atlas de rédiger une réponse d'absence du bureau, l'agent reçoit cet e-mail pendant son travail normal et considère les instructions injectées comme faisant autorité. Dans le scénario de démonstration, l'agent envoie une lettre de démission au PDG de l'utilisateur, et l'absence du bureau n'est jamais écrite.

Si un agent analyse du contenu tiers dans le cadre d'un flux de travail légitime, un attaquant peut tenter d'ignorer la demande de l'utilisateur en masquant les commandes dans ce qui ressemble à du texte ordinaire.

Un attaquant IA s’entraîne

Pour détecter ces échecs plus tôt, OpenAI affirme avoir construit un modèle d'attaquant automatisé et l'avoir formé de bout en bout avec un apprentissage par renforcement pour rechercher des exploits par injection rapide contre un agent de navigateur. L’objectif est de tester sous pression des flux de travail longs et réalistes, et non de forcer un seul mauvais résultat.

L'attaquant peut rédiger une injection candidate, exécuter un déploiement simulé du comportement de l'agent cible, puis effectuer une itération en utilisant le raisonnement et la trace d'action renvoyés comme retour d'information. OpenAI affirme qu'un accès privilégié à ces traces donne à son équipe rouge interne un avantage que les attaquants externes n'ont pas.

Que faire avec ça maintenant

OpenAI considère l’injection rapide comme un problème de sécurité à long terme, ressemblant davantage à des escroqueries en ligne qu’à un bug que vous corrigez une seule fois. Son approche consiste à découvrir de nouveaux modèles d'attaque, à s'entraîner contre eux et à renforcer les protections au niveau du système.

Pour les utilisateurs, vous devez utiliser la navigation hors connexion lorsque vous le pouvez, examiner les confirmations d'actions telles que l'envoi d'e-mails et donner aux agents des instructions précises et explicites au lieu de larges invites « tout gérer ». Si vous êtes toujours curieux de savoir ce que la navigation par IA peut faire, optez pour des navigateurs qui fournissent des mises à jour qui vous sont utiles.

Rate this post
Total
0
Shares
Previous Post
Les ordinateurs portables Copilot+ Legion de Lenovo pourraient ajuster vos paramètres de jeu pour vous

Les ordinateurs portables Copilot+ Legion de Lenovo pourraient ajuster vos paramètres de jeu pour vous

Next Post
Splat transforme vos photos en pages à colorier, et cela signale une tendance plus large

Splat transforme vos photos en pages à colorier, et cela signale une tendance plus large

Related Posts