OpenAI réduit ses derniers modèles pour atteindre un objectif différent, des réponses plus rapides et des coûts bien inférieurs. Les nouveaux GPT-5.4 mini et nano sont conçus pour les développeurs qui se soucient davantage de la réactivité que d'exploiter jusqu'au dernier bout de puissance de raisonnement.
Les deux modèles sont disponibles à partir d'aujourd'hui. GPT-5.4 mini fonctionne plus de deux fois plus vite que son prédécesseur tout en restant proche du GPT-5.4 complet sur les tests clés. GPT-5.4 nano va plus loin, en se concentrant sur des tâches plus simples telles que la classification et l'extraction de données, là où l'efficacité compte le plus.
Cette approche convient aux applications où la vitesse façonne l'expérience. Les assistants de codage, les agents d'arrière-plan et les outils de vision en temps réel dépendent d'un retour d'information rapide et, dans ces cas, un modèle légèrement plus petit donne souvent un meilleur résultat global.
Combien de performances vous perdez réellement
L’écart de performances entre les modèles est plus étroit que prévu. GPT-5.4 mini obtient un score de 54,4 % sur SWE-Bench Pro, contre 57,7 % pour le modèle complet. Sur OSWorld-Verified, la version mini atteint 72,1 pour cent tandis que la version plus grande atteint 75 pour cent, gardant ainsi la différence entre les tâches.
Les coûts diminuent de façon bien plus spectaculaire. GPT-5.4 mini coûte 0,75 € par million de jetons d'entrée et 4,50 € par million de jetons de sortie, tandis que le nano coûte 0,20 € et 1,25 €. Les deux modèles prennent en charge les entrées de texte et d'image, l'utilisation d'outils, les appels de fonctions et une fenêtre contextuelle de 400 000 jetons, de sorte que le prix inférieur ne supprime pas les fonctionnalités de base.
Dans le Codex, le mini modèle n'utilise que 30 % du quota GPT-5.4. Cela permet aux développeurs de déplacer le travail de codage de routine vers un niveau moins cher tout en conservant le modèle complet pour un raisonnement plus approfondi.
Quand les petits modèles font le gros du travail
OpenAI propose également un flux de travail multimodèle. Au lieu de s'appuyer sur un seul système, les développeurs peuvent répartir le travail sur plusieurs niveaux, en associant un modèle de planification plus vaste à des modèles plus petits gérant l'exécution.
Cette configuration reflète le nombre d'applications réelles qui se comportent déjà. Un modèle peut examiner une base de code ou décider de modifications, tandis qu'un autre traite des données ou des étapes répétitives. Le plus petit modèle gère le travail prévisible, tandis que le plus grand se concentre sur le jugement et la coordination.


Les premiers retours suggèrent que cette combinaison est efficace. Aabhas Sharma, CTO d'Hebbia, a rapporté que GPT-5.4 mini correspondait ou surpassait les modèles concurrents sur plusieurs tâches à moindre coût et, dans certains cas, a même fourni de meilleurs résultats de bout en bout que le GPT-5.4 complet.
Quoi utiliser et quand
GPT-5.4 mini est désormais disponible sur l'API, le Codex et ChatGPT. Les utilisateurs de Free and Go peuvent y accéder via l'option Thinking, tandis que d'autres utilisateurs peuvent y voir une solution de repli lorsqu'ils atteignent les limites de GPT-5.4 Thinking.
Le modèle nano est actuellement limité à l'API, destiné aux équipes exécutant des charges de travail à volume élevé où le contrôle des coûts est essentiel. Les deux modèles sont en ligne aujourd'hui avec une documentation complète disponible.
Pour les développeurs créant des fonctionnalités d’IA en temps réel, le changement est clair. Les modèles plus petits sont désormais suffisamment capables de gérer une plus grande part du travail quotidien, ce qui fait du choix du bon équilibre entre vitesse, coût et capacité une décision de plus en plus pratique.








