Il y a à peine il y a quelques mois, le grand pari de Wall Street sur l'IA génératrice a eu un moment de calcul Quand Deepseek Arrivé sur les lieux. Malgré sa nature fortement censuréel'open source Deepseek a prouvé qu'un modèle de raisonnement d'IA frontal ne nécessite pas nécessairement des milliards de dollars et peut être retiré sur des ressources modestes.
Il a rapidement trouvé l'adoption commerciale Par des géants tels que Huawei, Oppo et Vivo, tandis que Microsoft, Alibaba et Tencent lui ont rapidement donné une place sur leurs plateformes. Désormais, la prochaine cible de la société chinoise bourdonnante est les modèles d'IA auto-améliorés qui utilisent une approche de juge-récompense en boucle pour s'améliorer.
Dans un article préalable (via Bloomberg), les chercheurs de Deepseek et de l'Université de Tsinghua en Chine décrivent une nouvelle approche qui pourrait rendre les modèles d'IA plus intelligents et efficaces de manière auto-améliorée. La technologie sous-jacente est appelée réglage de la critique autoprécitée (SPCT), et l'approche est techniquement connue sous le nom de modélisation générative des récompenses (GRM).
Dans les termes les plus simples, c'est un peu comme créer une boucle de rétroaction en temps réel. Un modèle d'IA est fondamentalement amélioré en augmentant la taille du modèle pendant la formation. Cela prend beaucoup de travaux humains et de ressources informatiques. Deepseek propose un système où le «juge» sous-jacent est livré avec son propre ensemble de critiques et de principes pour un modèle d'IA alors qu'il prépare une réponse aux requêtes utilisateur.
Cet ensemble de critiques et de principes est ensuite comparé aux règles statiques fixées au cœur d'un modèle d'IA et au résultat souhaité. S'il y a un degré élevé de correspondance, un signal de récompense est généré, ce qui guide efficacement l'IA pour fonctionner encore mieux dans le cycle suivant.
Les experts derrière le journal font référence à la prochaine génération de modèles d'IA auto-améliorés en tant que profondeur-grm. Les références répertoriées dans l'article suggèrent que ces modèles fonctionnent mieux que les Gémeaux de Google, le Llama de Meta et les modèles GPT-4O d'OpenAI. Deepseek dit que ces modèles AI de nouvelle génération seront publiés via le canal open-source.
AI auto-améliorant?


Le sujet de l'IA qui peut s'améliorer a suscité des remarques ambitieuses et controversées. L'ancien PDG de Google, Eric Schmidt, a fait valoir que nous pourrions avoir besoin d'un commutateur de mise à mort pour de tels systèmes. « Lorsque le système peut s'auto-impression, nous devons sérieusement penser à le débrancher », a déclaré Schmidt cité par Fortune.
Le concept d'une IA d'auto-amélioration récursive n'est pas exactement un concept nouveau. L'idée d'une machine ultra-intelligente, qui est par la suite capable de fabriquer encore de meilleures machines, trace en fait Retour vers le mathématicien IJ Good en 1965. En 2007, l'expert en IA Eliezer Yudkowsky a émis l'hypothèse sur les semences AIune IA «conçue pour la compréhension de soi, l'auto-modification et l'auto-amélioration récursive».
En 2024, Sakana AI du Japon a détaillé le concept d'un «scientifique de l'IA» sur un système capable de passer l'ensemble du pipeline d'un document de recherche du début à la fin. Dans un document de recherche Publié en mars de cette année, les experts de Meta ont révélé des modèles de langue auto-récompense où l'IA elle-même agit comme juge pour fournir des récompenses pendant la formation.
Les tests internes de Meta sur son modèle LLAMA 2 AI en utilisant la nouvelle technique d'auto-récompense ont vu des rivaux de rivaux tels que Claude 2 d'Anthropic, Gemini Pro de Google et les modèles GPT-4 d'Openai. Anthrope soutenu par Amazon détaillé Ce qu'ils ont appelé la récompense, un processus inattendu «lorsqu'un modèle modifie directement son propre mécanisme de récompense».
Google n'est pas trop loin derrière l'idée. Dans une étude publiée dans la nature Journal plus tôt ce mois-ci, des experts de Google Deepmind ont présenté un algorithme d'IA appelé Dreamer qui peut s'améliorer, en utilisant le jeu Minecraft comme exemple d'exercice.
Les experts d'IBM travaillent Sur leur propre approche appelée formation de fermeture déductive, où un modèle d'IA utilise ses propres réponses et les évalue contre les données de formation pour s'améliorer. Toute la prémisse, cependant, n'est pas tout le soleil et les arcs-en-ciel.
La recherche suggère que lorsque les modèles d'IA tentent de s'entraîner sur des données synthétiques auto-générées, cela conduit à des défauts familièrement appelés «effondrement du modèle». Il serait intéressant de voir à quel point Deepseek exécute l'idée et s'il peut le faire de manière plus frugale que ses rivaux de l'Ouest.