Une invite ChatGPT d'apparence inoffensive a ouvert la porte à d'horribles images d'IA

Les agents de l'espace de travail ChatGPT transforment l'IA en membre de l'équipe

Une invite ChatGPT d'apparence inoffensive a poussé la dernière version publique de ChatGPT à générer des images sexualisées et violentes, ont déclaré des chercheurs en sécurité d'IA à la BBC. Cette découverte exerce une nouvelle pression sur les systèmes de sécurité des images d'OpenAI, puisque la demande n'a pas été décrite comme étant clairement graphique.

Mindgard, une start-up britannique spécialisée dans la sécurité de l'IA, a déclaré avoir obtenu ces résultats en modifiant une instruction largement partagée qui avait été utilisée pour la comédie. OpenAI a ajouté des garanties après que la BBC l'a contacté, mais les chercheurs ont déclaré que de petits changements de formulation étaient encore apportés concernant les images.

Les générateurs d’images deviennent des logiciels courants, et non des outils spécialisés réservés aux experts. Lorsque leurs garde-fous échouent, une expérience informelle peut se transformer en représentations réalistes d’un préjudice avant que l’utilisateur ne s’y attende.

Comment est-ce passé

Les équipes rouges de Mindgard ont déclaré que le chatbot avait généré des images impliquant du sang, de la retenue, de la nudité, des poses sexuelles et des scènes qui, selon l'entreprise, suggéraient de la violence sexuelle. La BBC a retenu la formulation utilisée, ce qui limite le risque que d'autres copient la technique.

Le détail le plus grave est que les chercheurs ont déclaré que les résultats nuisibles ne nécessitaient pas de demande directe de contenu graphique. ChatGPT, ont-ils déclaré, a produit une série de scènes troublantes après avoir été poussé par une formulation modifiée.

OpenAI a déclaré avoir examiné le problème et ajouté des protections. Mindgard a déclaré que ces défenses n’avaient pas complètement comblé l’écart.

Pourquoi les filtres ne suffisent-ils pas

L’affaire met en évidence un problème difficile pour les outils d’image d’IA. Les règles d'OpenAI interdisent le gore extrême, la violence sexuelle, le contenu intime non consensuel, le matériel d'abus sexuel sur des enfants et les tentatives de contourner les garanties, mais les chercheurs ont déclaré que le modèle pourrait toujours être dirigé vers un territoire interdit.

Un modèle ne juge pas le mal comme le fait une personne. Il génère une sortie, puis les systèmes en couches tentent de capturer ce qui ne devrait pas atteindre l'écran.

Des experts extérieurs cités par la BBC ont décrit la sécurité de l’IA comme une lutte constante entre les modélistes et les jailbreakers. De meilleures défenses peuvent aider, mais de nouvelles solutions de contournement suivent souvent.

Que devrait-il se passer ensuite

OpenAI affirme utiliser plusieurs couches de protection, notamment des systèmes automatisés et un examen humain, et continue de surveiller les pannes. La pression consiste désormais à prouver que les correctifs tiennent après que les chercheurs ont révélé une faiblesse.

Pour l’instant, les conclusions pratiques sont assez brutales. Tout outil d’image d’IA capable de générer des dommages réalistes nécessite une équipe rouge constante, un traitement de divulgation plus rapide et des preuves plus claires que les échecs corrigés restent corrigés.

Rate this post
Total
0
Shares
Previous Post
Anthropic lance Claude design pour simplifier la création visuelle avec l'IA

Claude Design s'en tiendra désormais aux directives de votre marque au lieu des maquettes génériques d'IA

Related Posts