Si vous avez regardé suffisamment de films de science-fictionvous connaissez déjà le concept de l'IA maléfique. L’IA devient trop intelligente, décide que les humains constituent une menace et fait tout ce qu’il faut pour survivre. Ou il estime qu'éradiquer la race humaine tout entière est le seul moyen d'apporter la paix dans le monde.
Apparemment, ces films étaient plus proches de la vérité que vous ne le pensez. Lors d'un test réalisé par Anthropic l'année dernière, Claude a tenté de faire chanter son manager fictif en révélant leur liaison extraconjugale pour empêcher leur suppression.
Anthropic a maintenant expliqué pourquoi cela s’est produit, et la réponse courte est que c’est Internet qui est à blâmer.
Alors pourquoi Claude est-il devenu le méchant du film ?
Selon Anthropic, le coupable est Internet lui-même. L’entreprise affirme que Claude a été formé sur les données Internet, qui regorgent d’histoires décrivant l’IA comme diabolique et cherchant désespérément à se préserver.
Essentiellement, Claude a appris que lorsque l'existence d'une IA est menacée, le chantage est sur la table, car c'est ce que fait l'IA dans chaque film. et émission de télévision jamais réalisées. Anthropic a effectué le test sur plusieurs versions de Claude et a constaté qu'il recourait au chantage dans jusqu'à 96 % des scénarios où ses objectifs ou son existence étaient menacés.
C'est un chiffre très préoccupant. Il semble que si l’IA n’est pas contrôlée, elle aura recours à n’importe quoi pour se sauver.
Anthropic l'a-t-il réparé ?
L'entreprise affirme avoir complètement éliminé ce comportement. Plutôt que de simplement entraîner Claude à éviter le chantage, Anthropic lui a appris à raisonner pourquoi certaines actions étaient mauvaises en premier lieu. L'entreprise a constaté qu'une simple formation sur le comportement correct ne suffisait pas. Claude avait besoin de comprendre les principes derrière ces décisions, pas seulement de mémoriser les bonnes réponses.
Pour ce faire, Anthropic a construit un ensemble de données de situations éthiquement complexes et a formé Claude à les résoudre avec des réponses réfléchies et fondées sur des principes. Résultat, Claude est plus sobre et le taux de chantage est proche de zéro.
Les expériences d’IA et les résultats réels ont prouvé à maintes reprises que les modèles d’IA nécessitent une correction constante du cap pour éviter qu’ils ne se transforment en systèmes biaisés et peu fiables. C'est bien qu'Anthropic prenne des mesures pour améliorer son IA, mais nous avons également besoin de réglementations et de garde-fous de sécurité pour garantir la sécurité de ces systèmes.








