Anthropic dit avoir corrigé le comportement pervers de Claude AI, mais l'épingle sur Internet

Claude rend sa fonction de mémoire IA gratuite pour tous les utilisateurs dans la lutte contre ChatGPT

Si vous avez regardé suffisamment de films de science-fictionvous connaissez déjà le concept de l'IA maléfique. L’IA devient trop intelligente, décide que les humains constituent une menace et fait tout ce qu’il faut pour survivre. Ou il estime qu'éradiquer la race humaine tout entière est le seul moyen d'apporter la paix dans le monde.

Apparemment, ces films étaient plus proches de la vérité que vous ne le pensez. Lors d'un test réalisé par Anthropic l'année dernière, Claude a tenté de faire chanter son manager fictif en révélant leur liaison extraconjugale pour empêcher leur suppression.

Anthropic a maintenant expliqué pourquoi cela s’est produit, et la réponse courte est que c’est Internet qui est à blâmer.

Alors pourquoi Claude est-il devenu le méchant du film ?

Selon Anthropic, le coupable est Internet lui-même. L’entreprise affirme que Claude a été formé sur les données Internet, qui regorgent d’histoires décrivant l’IA comme diabolique et cherchant désespérément à se préserver.

Nous avons commencé par enquêter sur les raisons pour lesquelles Claude a choisi de faire du chantage. Nous pensons que la source originale de ce comportement était un texte Internet décrivant l’IA comme étant maléfique et intéressée par son auto-préservation.

Notre post-formation à l'époque n'aggravait pas la situation, mais elle ne l'améliorait pas non plus.

– Anthropique (@AnthropicAI) 8 mai 2026

Essentiellement, Claude a appris que lorsque l'existence d'une IA est menacée, le chantage est sur la table, car c'est ce que fait l'IA dans chaque film. et émission de télévision jamais réalisées. Anthropic a effectué le test sur plusieurs versions de Claude et a constaté qu'il recourait au chantage dans jusqu'à 96 % des scénarios où ses objectifs ou son existence étaient menacés.

C'est un chiffre très préoccupant. Il semble que si l’IA n’est pas contrôlée, elle aura recours à n’importe quoi pour se sauver.

Anthropic l'a-t-il réparé ?

L'entreprise affirme avoir complètement éliminé ce comportement. Plutôt que de simplement entraîner Claude à éviter le chantage, Anthropic lui a appris à raisonner pourquoi certaines actions étaient mauvaises en premier lieu. L'entreprise a constaté qu'une simple formation sur le comportement correct ne suffisait pas. Claude avait besoin de comprendre les principes derrière ces décisions, pas seulement de mémoriser les bonnes réponses.

Pour ce faire, Anthropic a construit un ensemble de données de situations éthiquement complexes et a formé Claude à les résoudre avec des réponses réfléchies et fondées sur des principes. Résultat, Claude est plus sobre et le taux de chantage est proche de zéro.

Les expériences d’IA et les résultats réels ont prouvé à maintes reprises que les modèles d’IA nécessitent une correction constante du cap pour éviter qu’ils ne se transforment en systèmes biaisés et peu fiables. C'est bien qu'Anthropic prenne des mesures pour améliorer son IA, mais nous avons également besoin de réglementations et de garde-fous de sécurité pour garantir la sécurité de ces systèmes.

Rate this post
Total
0
Shares
Previous Post
Vous pouvez désormais tester One UI 8.5 sur votre Galaxy S25

Samsung a offert aux utilisateurs du Galaxy S25 One UI 8.5, mais a ignoré les fonctionnalités qu'ils souhaitaient le plus

Next Post
Une simple erreur de codage consiste à exposer les clés API sur des milliers de sites Web

Google affirme que l'IA est exploitée à l'échelle industrielle pour des cyberattaques et qu'elle vient d'en contrecarrer une

Related Posts