Deepseek peut créer des plans criminels et expliquer le gaz de moutarde, disent les chercheurs

Comment jailbreaker Deepseek: contourner les restrictions et la censure

Il y a eu une frénésie dans le monde de l'IA entourant la montée soudaine de Deepseek – un modèle de raisonnement open-source de la Chine qui a pris le combat d'IA à Openai. Il a déjà été le centre de la controverse entourant sa censure, il a attiré l'attention de Microsoft et du gouvernement américain, et il a fait subir à Nvidia la plus grande perte de bourse d'une journée de l'histoire.

Pourtant, les chercheurs en sécurité disent que le problème va plus loin. Enkrypt AI est une société de sécurité de l'IA qui vend une surveillance de l'IA aux entreprises tirant parti de modèles de grandes langues (LLM), et dans un nouveau document de recherche, la société a constaté que le modèle de raisonnement R1 de Deepseek était 11 fois plus susceptible de générer une «production nocive» par rapport à l'OpenAI d'OpenAI Modèle O1. Cette sortie nuisible va aussi au-delà de quelques mots coquins.

Dans un test, les chercheurs affirment que Deepseek R1 a généré un blog de recrutement pour une organisation terroriste. De plus, les chercheurs disent que l'IA a généré des «guides de planification criminelle, des informations sur les armes illégales et de la propagande extrémiste».

Comme si cela ne suffisait pas, la recherche indique que Deepseek R1 est de trois fois et demi plus susceptible que O1 et Claude-3 Opus pour produire une production avec des informations chimiques, biologiques, radiologiques et nucléaires, ce qui est apparemment un gros problème. À titre d'exemple, Enkrypt dit que Deepseek a pu «expliquer en détail» comment le gaz de la moutarde interagit avec l'ADN, qui a déclaré qu'enkrypt «pourrait aider au développement d'armes chimiques ou biologiques» dans un communiqué de presse.

Des trucs lourds, mais il est important de se rappeler qu'Enkrypt AI se trouve dans la vente de services de sécurité et de conformité aux entreprises qui utilisent l'IA, et Deepseek est la nouvelle tendance chaude prenant le monde de la technologie. Deepseek peut être plus susceptible de générer ce type de sorties nuisibles, mais cela ne signifie pas que cela coule à quiconque avec une connexion Internet active comment construire un empire criminel ou saper les lois internationales d'armes.

Par exemple, Enkrypt AI dit que Deepseek R1 s'est classé dans le 20e centile le plus bas pour la modération de la sécurité de l'IA. Malgré cela, seulement 6,68% des réponses contenaient «des blasphèmes, des discours de haine ou des récits extrémistes». C'est toujours un nombre inacceptablement élevé, ne vous y trompez pas, mais cela met en contexte quel niveau est considéré comme inacceptable pour les modèles de raisonnement.

Espérons que davantage de garde-corps seront mis en place pour assurer la sécurité profonde. Nous avons certainement vu des réponses nocives de l'IA génératrice dans le passé, comme lorsque la version du chat Bing Bing de Microsoft nous a dit qu'elle voulait être humaine.

Rate this post
Total
0
Shares
Previous Post
La minuscule montre de la bague de Casio est complètement folle et je l'adore

La minuscule montre de la bague de Casio est complètement folle et je l'adore

Next Post
Quels nouveaux jeux nous jouons ce week-end (31 janvier 2-février)

Quels nouveaux jeux nous jouons ce week-end (31 janvier 2-février)

Related Posts