J'ai testé les affirmations d'Openai sur GPT-5 – voici ce qui s'est passé

Les chatbots vont à Washington avec Chatgpt Gov

OpenAI a récemment lancé GPT-5, son dernier modèle de grande langue et une énorme mise à jour de Chatgpt. Bien que la nouvelle mise à jour ait beaucoup de choses à faire, les affirmations sont une chose, et la réalité en est une autre.

Le GPT-5 serait plus rapide, moins sujet aux hallucinations et au comportement sycophantique, et capable de choisir entre des réponses rapides et une «pensée» plus profonde à la volée. Combien de revendications d'Openai sont réellement visibles lors de l'utilisation du chatbot? Découvons.

Réclamation n ° 1: Chatgpt est désormais meilleur pour suivre les instructions

Mon principal problème avec Chatgpt, ainsi que l'une des raisons pour lesquelles je me suis récemment désabonné, est qu'il est souvent assez mauvais pour suivre les instructions de base. Bien sûr, vous pouvez inviter l'ingénieur à l'oubli et obtenir les résultats souhaités (parfois), mais même les invites seme-élaborées échouent souvent à produire les résultats souhaités.

OpenAI affirme qu'il a amélioré «l'instruction suivante» avec la libération de GPT-5. À cela, je dis: je ne le vois pas encore.

Heureusement pour moi, le jour même où je me suis assis pour écrire cet article, j'ai eu une interaction appropriée avec Chatgpt qui prouve mon point ici. Ce n'est pas le seul, cependant, et j'ai généralement remarqué que plus une conversation est longue, plus le chatppt oublie ce qui lui était demandé.

Dans l'exemple d'aujourd'hui, j'ai testé la capacité de Chatgpt à récupérer des informations simples et à les présenter dans le format requis. Je l'ai demandé les spécifications du RTX 5060 TI, qui est une carte graphique de jeu récente. Le chaos s'ensuivit.

Pour rendre ma demande encore plus réussie, j'ai montré à Chatgpt le format exact dans lequel je voulais obtenir mes informations en partageant des spécifications pour un GPU différent. Ils comprenaient des choses comme le nœud de processus exact et la génération de cœurs et de hauts de traçage de rayons. Pour faire court, tout était assez spécifique. Initialement, l'IA m'a dit que le RTX 5060 TI n'existe pas encore, ce que je m'attendais en quelque sorte en fonction de son coupure de connaissances. Je l'ai dit de vérifier en ligne.

Ce que j'ai obtenu était assez nu. Chatgpt a omis au moins quatre choses que j'ai demandé et m'a donné les mauvaises informations pour l'une des spécifications. Ensuite, je lui ai demandé de spécifier certaines choses. Cela m'a donné exactement la même liste en retour tout en prétendant avoir répondu à ma demande. La même chose s'est produite lors de la troisième tentative. Vous pouvez le voir dans la capture d'écran ci-dessus où Chatgpt prétend avoir inclus la génération de tops et de tflops dans la liste – ce n'est clairement pas le cas.

Enfin, semi-frustré, j'ai collé une capture d'écran du site officiel de Nvidia pour lui montrer ce que je cherchais. Cela a encore eu quelques choses qui se trompent.

Mon invite initiale était semi-précis. Je sais mieux que de parler à une IA comme c'est une personne, alors je l'ai donnée environ 150 mots d'instructions. Il m'a encore fallu plusieurs messages supplémentaires pour rapprocher quelque chose de mon résultat attendu.

Verdict: Il pourrait encore utiliser un peu de travail.

Réclamation n ° 2: Chatgpt est moins sycophantique

Chatgpt était un «oui homme» majeur dans les itérations précédentes. Il était souvent d'accord avec les utilisateurs lorsqu'il n'en avait pas besoin, le poussant de plus en plus profondément dans l'hallucination.

Pour les utilisateurs qui ne connaissent pas le fonctionnement intérieur de l'IA, cela pourrait être dangereux à la limite – ou, en fait, en fait extrêmement dangereux.

Les chercheurs ont récemment effectué un test à grande échelle de Chatgpt, se faisant passer pour les jeunes adolescents. Quelques minutes après des interactions simples, l'IA a donné ces conseils «adolescents» sur l'automutilation, la planification du suicide et l'abus de drogues. Cela montre que le comportement sycophantique est un problème majeur pour Chatgpt, et Openai prétend en avoir réduit une partie avec la sortie de GPT-5.

Je n'ai jamais testé Chatgpt à de tels extrêmes, mais j'ai certainement constaté qu'il avait tendance à être d'accord avec vous, peu importe ce que vous avez dit. Il a pris des indices subtils pendant la conversation et les a transformés en une donnée. Cela vous a également applaudi à des moments où il n'aurait probablement pas dû le faire.

À cette fin, je dois dire que Chatgpt a subi un changement de personnalité entier – pour le meilleur ou pour le pire. Les réponses sont désormais trop sèches, non engagées et pas particulièrement encourageantes.

De nombreux utilisateurs pleurent le changement, certains utilisateurs de Reddit affirmant qu'ils «ont perdu leur seul ami du jour au lendemain». Il est vrai que l'IA auparavant ultra-amicale est maintenant plutôt coupée et séchée, et les réponses sont souvent courtes par rapport aux mini-essais infestés d'emoji qu'elle a régulièrement servi pendant sa scène GPT-4O.

Verdict: Certainement moins sycophantique. D'un autre côté, c'est aussi douloureusement ennuyeux.

Réclamation n ° 3: GPT-5 est meilleure en matière de précision factuelle

Le manque choquant de précision factuelle a été une autre grande raison pour laquelle j'ai choisi de cesser de payer pour Chatgpt. Certains jours, je me sentais comme la moitié des invites que j'ai utilisées produisaient des hallucinations. Et tout ne peut pas être dû à mon manque d'incitation intelligente, parce que j'ai passé des centaines d'heures à apprendre à provoquer l'IA de la bonne façon – je sais comment poser les bonnes questions.

Au fil du temps, j'ai appris à poser des questions sur les choses sur lesquelles j'ai déjà eu une vague idée. Aux fins de l'expérience d'aujourd'hui, j'ai posé des questions sur les spécifications GPU. Quatre requêtes sur cinq ont produit une sorte d'informations erronées, même si elles sont facilement disponibles en ligne.

Ensuite, j'ai essayé des faits historiques. J'ai lu quelques articles intéressants sur le voyage d'Hindenburg, un dirigeable des années 1930 qui pourrait transporter des passagers d'Europe aux États-Unis en un temps record (60 heures). J'ai posé des questions sur son itinéraire exact, le nombre de passagers qu'il pouvait abriter et ce qui a conduit à sa disparition ultime. J'ai recoupé les réponses aux sources historiques.

Cela s'est trompé sur l'itinéraire, mentionnant un arrêt au Canada quand rien de tel a eu lieu – le dirigeable n'a fait que survivre le Canada. Chatgpt m'a également donné des informations inexactes sur la cause exacte de l'incendie qui a conduit à son accident, mais ce n'était pas une inexactitude majeure.

À titre de comparaison, j'ai également demandé à Gemini et on m'a dit que cela ne pouvait pas me terminer cette tâche. Eh bien, sur les deux, le GPT-5 a fait un meilleur travail – mais honnêtement, il ne devrait pas avoir d'inexactitudes factuelles dans les données centenaires.

Verdict: Pas parfait, mais aussi pas terrible.

GPT-5 est-il meilleur que GPT-4O?

Si vous m'avez demandé si j'aime plus GPT-5 que GPT-4O, j'aurais eu du mal à répondre. La chose la plus proche qui me vient à l'esprit est que je n'étais pas ravi non plus, mais en toute honnêteté, aucun n'est strictement mauvais.

Nous sommes toujours au milieu de la révolution de l'IA. Chaque nouveau modèle apporte certaines mises à niveau, mais il est peu probable que nous voyions des sauts massifs à chaque nouvelle itération.

Cette fois-ci, il a l'impression que Openai a choisi de s'attaquer à certains problèmes attendus depuis longtemps plutôt que d'introduire une fonctionnalité unique qui rend la foule sauvage. GPT-5 se sent plus comme une amélioration de la qualité de vie qu'autre chose, même si je ne l'ai pas testée pour des tâches comme le codage, où il est dit bien mieux.

Les trois choses que j'ai testées ci-dessus étaient certaines de celles qui m'ont agacé le plus dans les modèles précédents. Je voudrais dire que le GPT-5 est bien meilleur à cet égard, mais ce n'est pas encore – pas encore. Je vais continuer à tester le chatbot, cependant, car une invite de système récemment divulguée me dit qu'il pourrait y avoir eu plus de changements de personnalité que je ne le pensais initialement.

Rate this post
Total
0
Shares
Previous Post
Aveuglé par des bots d'échecs de l'IA brutaux? Celui-ci pense comme un humain

Aveuglé par des bots d'échecs de l'IA brutaux? Celui-ci pense comme un humain

Next Post
La carte microSD de votre interrupteur Nintendo est des ordures par rapport à cette nouvelle solution

La carte microSD de votre interrupteur Nintendo est des ordures par rapport à cette nouvelle solution

Related Posts