DeepSeek en Chine a l'habitude de se présenter, sans y être invité, à la soirée IA de la Silicon Valley, et cette fois, il l'a fait avec l'aperçu tant attendu de la V4. La société basée à Hangzhou a publié son dernier modèle d’IA, qui bat les modèles américains populaires dans certains domaines.
DeepSeek a lancé deux nouveaux modèles : V4-Pro (mode Expert) et V4-Flash (mode Instant). Alors que le premier est un modèle massif de 1,6 billion de paramètres, le second représente 284 milliards de paramètres, plus gérables. Cependant, les deux disposent d’une fenêtre contextuelle d’un million de jetons.
Qu’est-ce que DeepSeek a publié exactement ?
Ce qui est encore plus important, c'est que les deux modèles sont open source, ce qui signifie qu'ils peuvent être téléchargés depuis Hugging Face et exécutés localement sur votre matériel. Cependant, l'ampleur du V4-Pro signifie que vous aurez besoin d'une quantité considérable de VRAM. pour l'exécuter localement.
L'une des parties les plus intéressantes de l'annonce est la comparaison avec des modèles d'IA populaires comme Gemini.ChatGPT et Claude. Par exemple, V4-Pro frappe fort en matière de codage, obtenant un score de 3 206 aux évaluations Codeforces, effaçant les 3 168 de GPT-5.4 et les 3 052 de Gemini 3.1. Cela en fait le modèle ouvert le plus puissant pour les tâches de programmation compétitives.
Sur LiveCodeBench, V4-Pro affiche 93,5, devant les 88,8 de Claude Opus 4.6 et Gemini 91,7, et de même, pour les tâches agentiques, il obtient un score de 51,8 sur Toolathlon, battant à la fois Claude (47,2) et Gemini (48,8). Le V4-Flash, plus rapide et plus efficace, rivalise quant à lui avec le V4-Pro sur des tâches d'agent simples, pour une fraction du coût de calcul.
Où V4-Pro bat-il la concurrence ?
| Référence | DeepSeek V4-Pro | Claude Opus 4.6 | GPT-5.4 | Gémeaux 3.1 Pro |
| Forces de code (évaluation) | 3 206 | — | 3 168 | 3 052 |
| LiveCodeBench (Pass@1) | 93,5 | 88,8 | — | 91,7 |
| Liste restreinte Apex (Pass@1) | 90,2 | 85,9 | 78.1 | 89,1 |
| SWE Vérifié (Résolu) | 80,6 | 80,8 | — | 80,6 |
| Toolathlon (Pass@1) | 51,8 | 47.2 | 54,6 | 48,8 |
| Banc de terminaux 2.0 (Acc) | 67,9 | 65,4 | 75.1 | 68,5 |
| Contexte long MRCR 1 M | 83,5 | 92,9 | — | 76,3 |
| HMMT 2026 Mathématiques | 95.2 | 96,2 | 97,7 | 94,7 |
| IMOAnswerBench | 89,8 | 75.3 | 91,4 | 81,0 |
Il existe cependant plusieurs domaines dans lesquels le nouveau modèle de DeekSeek est en retard par rapport à la concurrence. Par exemple, l'opus 4.6 de Claude s'intéresse à la récupération de contextes longs. Il obtient un score de 92,9 sur MRCR 1M contre 83,5 pour V4-Pro. GPT-5.4 toujours en tête du Terminal Bench 2.0 à 75,1 contre 67,9 pour V4-Pro.
Là où DeepSeek perturbe véritablement la concurrence, c'est au niveau des prix. Le V4-Pro coûte 3,48 € par million de jetons de sortie, ce qui, comparé aux 30 € d'OpenAI et aux 25 € d'Anthropic pour des charges de travail équivalentes, pourrait sembler beaucoup plus attrayant pour les clients potentiels. Cet écart est énorme pour les développeurs qui créent quotidiennement des applications basées sur l’IA.





