Les capacités récentes de la génération d'images de Chatgpt ont contesté notre précédent sous-sol des médias générés par l'IA. Le modèle GPT-4O récemment annoncé démontre des capacités notables d'interpréter des images avec une grande précision et de les recréer avec des effets viraux, tels que celui inspiré par le studio Ghibli. Il est même le texte des maîtres dans les images générées par l'AIce qui a déjà été difficile pour l'IA. Et maintenant, il lance deux nouveaux modèles capables de disséquer des images pour que des indices recueillent beaucoup plus d'informations qui pourraient même échouer un coup d'œil humain.
Openai a annoncé Deux nouveaux modèles plus tôt cette semaine qui prennent des capacités de pensée de Chatgpt d'un cran. Son nouveau modèle O3, qu'Openai appelle son «modèle de raisonnement le plus puissant» améliore les capacités d'interprétation et de perception existantes, s'améliorant en «codage, mathématiques, sciences, perception visuelle, etc.», affirme l'organisation. Pendant ce temps, l'O4-Mini est un modèle plus petit et plus rapide pour le «raisonnement rentable» dans les mêmes avenues. La nouvelle fait suite au récent lancement d'Openai de la classe GPT-4.1 des modèles, qui apporte un traitement plus rapide et un contexte plus approfondi.
Chatgpt est maintenant «penser avec des images»
Avec des améliorations à leurs capacités à raisonner, les deux modèles peuvent désormais incorporer des images dans leur processus de raisonnement, ce qui les rend capables de «penser avec des images», proclame Openai. Avec ce changement, les deux modèles peuvent intégrer des images dans leur chaîne de pensée. En dépassant l'analyse de base des images, les modèles O3 et O4-MinI peuvent étudier les images de plus près et même les manipuler à travers des actions telles que le recadrage, le zoom, le retournement ou l'enrichissement des détails pour récupérer les indices visuels des images qui pourraient potentiellement améliorer la capacité de Chatgpt à fournir des solutions.
Avec l'annonce, il est dit que les modèles mélangent le raisonnement visuel et textuel, qui peut être intégré à d'autres fonctionnalités de ChatGpt tels que la recherche Web, l'analyse des données et la génération de code, et devrait devenir la base des agents d'IA plus avancés avec analyse multimodale.
Entre autres applications pratiques, vous pouvez vous attendre à inclure des images d'une multitude d'éléments, de tels graphiques de flux ou de griffonner des notes manuscrites aux images d'objets du monde réel, et s'attendre à ce que Chatgpt ait une compréhension plus profonde pour une meilleure sortie, même sans une invite de texte descriptive. Avec cela, Openai se rapproche des Gémeaux de Google, qui offre la capacité impressionnante d'interpréter le monde réel par vidéo en direct.
Malgré les réclamations audacieuses, Openai ne limite l'accès qu'aux membres payants, vraisemblablement pour empêcher ses GPU de «fondre» Encore une fois, car il a du mal à maintenir la demande de calcul de nouvelles fonctionnalités de raisonnement. À l'heure actuelle, les modèles O3, O4-Mini et O4-MinI-High seront exclusivement disponibles pour les membres de ChatGpt Plus, Pro et de l'équipe tandis que les utilisateurs de niveau et de niveau d'éducation l'obtiennent dans une semaine. Pendant ce temps, les utilisateurs gratuits pourront limiter l'accès à O4-MinI lorsqu'ils sélectionnent le bouton «Think» dans la barre d'invite.