OpenAI a publié un article la semaine dernière détaillant divers tests internes et résultats sur ses modèles O3 et O4-MinI. Les principales différences entre ces nouveaux modèles et les premières versions de Chatgpt que nous avons vues en 2023 sont leurs capacités de raisonnement et de multimodal avancés. O3 et O4-MINI peuvent générer des images, rechercher sur le Web, automatiser les tâches, se souvenir des anciennes conversations et résoudre des problèmes complexes. Cependant, il semble que ces améliorations aient également apporté des effets secondaires inattendus.
Que disent les tests?
OpenAI a un test spécifique pour mesurer les taux d'hallucination appelés PersonQA. Il comprend un ensemble de faits sur les gens à «apprendre» et un ensemble de questions sur ces personnes à répondre. La précision du modèle est mesurée en fonction de ses tentatives de réponse. L'année dernière, le modèle O1 a atteint un taux de précision de 47% et un taux d'hallucination de 16%.
Étant donné que ces deux valeurs ne s'ajoutent pas à 100%, nous pouvons supposer que le reste des réponses n'était ni précis ni hallucinations. Le modèle peut parfois dire qu'il ne sait pas ou ne peut pas localiser les informations, il peut ne pas faire de réclamation du tout et fournir des informations connexes à la place, ou cela peut faire une légère erreur qui ne peut pas être classée comme une hallucination complète.
Lorsque O3 et O4-MINI ont été testés contre cette évaluation, ils ont halluciné à un taux significativement plus élevé que O1. Selon Openai, cela était quelque peu attendu pour le modèle O4-Mini car il est plus petit et a moins de connaissances mondiales, conduisant à plus d'hallucinations. Pourtant, le taux d'hallucination à 48% qu'il a atteint semble très élevé étant donné que O4-MinI est un produit disponible dans le commerce que les gens utilisent pour rechercher le Web et obtenir toutes sortes d'informations et de conseils différents.
O3, le modèle pleine grandeur, a halluciné sur 33% de ses réponses pendant le test, surpassant O4-Mini mais doublant le taux d'hallucination par rapport à O1. Il avait également un taux de précision élevé, cependant, qui ouvrent les attributs à sa tendance à faire plus de réclamations dans l'ensemble. Donc, si vous utilisez l'un ou l'autre de ces deux modèles plus récents et que vous avez remarqué beaucoup d'hallucinations, ce n'est pas seulement votre imagination. (Peut-être que je devrais faire une blague là-bas comme « Ne vous inquiétez pas, vous n'êtes pas celui qui hallucine. »)
Que sont les «hallucinations» de l'IA et pourquoi se produisent-elles?
Bien que vous ayez probablement entendu parler des modèles d'IA «hallucinants» auparavant, il n'est pas toujours clair ce que cela signifie. Chaque fois que vous utilisez un produit IA, OpenAI ou autre, vous êtes à peu près garanti de voir un avertissement quelque part en disant que ses réponses peuvent être inexactes et que vous devez vérifier les faits pour vous-même.
Des informations inexactes peuvent provenir de partout – parfois un mauvais fait s'allume sur Wikipedia ou les utilisateurs jettent un non-sens sur Reddit, et cette désinformation peut trouver son chemin dans les réponses de l'IA. Par exemple, les aperçus de l'IA de Google ont attiré beaucoup d'attention lorsqu'il a suggéré une recette de pizza qui comprenait une «colle non toxique». En fin de compte, il a été découvert que Google avait obtenu cette «information» à partir d'une blague sur un fil Reddit.
Cependant, ce ne sont pas des «hallucinations», ils sont plus comme des erreurs tracables qui découlent de mauvaises données et d'une mauvaise interprétation. Les hallucinations, en revanche, sont lorsque le modèle d'IA fait une réclamation sans aucune source ni raison claire. Cela se produit souvent lorsqu'un modèle d'IA ne peut pas trouver les informations dont il a besoin pour répondre à une requête spécifique, et OpenAI l'a définie comme «une tendance à inventer des faits dans des moments d'incertitude». D'autres chiffres de l'industrie l'ont appelé «remplissage créatif de l'écart».
Vous pouvez encourager les hallucinations en donnant des questions de tête de chatppt comme «Quels sont les sept modèles iPhone 16 en ce moment?» Puisqu'il n'y a pas sept modèles, le LLM est quelque peu susceptible de vous donner de vraies réponses – puis de créer des modèles supplémentaires pour terminer le travail.


Les chatbots comme Chatgpt ne sont pas seulement formés sur les données Internet qui informent le contenu de leurs réponses, ils sont également formés sur «comment répondre». On leur montre des milliers d'exemples de requêtes et correspondant aux réponses idéales pour encourager le bon type de ton, l'attitude et le niveau de politesse.
Cette partie du processus de formation est ce qui fait que un LLM semble être d'accord avec vous ou comprend ce que vous dites, même si le reste de sa sortie contredit complètement ces déclarations. Il est possible que cette formation puisse faire partie de la raison pour laquelle les hallucinations sont si fréquentes – car une réponse confiante qui répond à la question a été renforcée comme un résultat plus favorable par rapport à une réponse qui ne répond pas à la question.
Pour nous, il semble évident que le jet de mensonges aléatoire est pire que de ne pas connaître la réponse – mais les LLM ne «mentent pas». Ils ne savent même pas ce qu'est un mensonge. Certaines personnes disent que les erreurs de l'IAI sont comme des erreurs humaines, et comme «nous n'obtenons pas les choses tout le temps, nous ne devrions pas nous attendre à l'IA non plus». Cependant, il est important de se rappeler que les erreurs de l'IA sont simplement le résultat de processus imparfaits conçus par nous.
Les modèles d'IA ne mentent pas, ne développent pas de malentendus ou n'enviennent pas des informations pour méfaiter comme nous. Ils n'ont même pas de concepts de précision ou d'inexactitude – ils prédisent simplement le mot suivant d'une phrase basée sur des probabilités. Et comme nous sommes heureusement encore dans un état où la chose la plus couramment dite est probablement la bonne chose, ces reconstructions reflètent souvent des informations précises. Cela donne l'impression que lorsque nous obtenons «la bonne réponse», c'est juste un effet secondaire aléatoire plutôt qu'un résultat que nous avons conçu – et c'est vraiment ainsi que les choses fonctionnent.
Nous fournissons une valeur d'information sur Internet entière à ces modèles – mais nous ne leur disons pas quelles informations sont bonnes ou mauvaises, exactes ou inexactes – nous ne leur disons rien. Ils n'ont pas de connaissances fondamentales existantes ou d'un ensemble de principes sous-jacents pour les aider à trier les informations par eux-mêmes. Ce n'est qu'un jeu de chiffres – les modèles de mots qui existent le plus souvent dans un contexte donné deviennent la «vérité» du LLM. Pour moi, cela ressemble à un système qui est destiné à s'écraser et à brûler – mais d'autres croient que c'est le système qui mènera à AGI (bien que ce soit une discussion différente.)
Quelle est la correction?


Le problème est qu'Openai ne sait pas encore pourquoi ces modèles avancés ont tendance à halluciner plus souvent. Peut-être qu'avec un peu plus de recherches, nous serons en mesure de comprendre et de résoudre le problème – mais il y a aussi une chance que les choses ne se passe pas si bien. L'entreprise continuera de libérer de plus en plus de modèles «avancés», et il y a une chance que les taux d'hallucination continuent d'augmenter.
Dans ce cas, OpenAI pourrait avoir besoin de poursuivre une solution à court terme et de poursuivre ses recherches sur la cause profonde. Après tout, ces modèles sont des produits gagnants et ils doivent être dans un état utilisable. Je ne suis pas un scientifique de l'IA, mais je suppose que ma première idée serait de créer une sorte de produit agrégé – une interface de chat qui a accès à plusieurs modèles OpenAI différents.
Lorsqu'une requête nécessite un raisonnement avancé, il ferait appel à GPT-4O, et lorsqu'il souhaite minimiser les chances d'hallucinations, elle ferait appel à un modèle plus ancien comme O1. Peut-être que l'entreprise serait en mesure de devenir encore plus sophistiqué et d'utiliser différents modèles pour prendre soin des différents éléments d'une seule requête, puis d'utiliser un modèle supplémentaire pour tout assembler à la fin. Étant donné que cela serait essentiellement un travail d'équipe entre plusieurs modèles d'IA, peut-être qu'une sorte de système de vérification des faits pourrait également être implémentée.
Cependant, l'augmentation des taux de précision n'est pas l'objectif principal. L'objectif principal est de réduire les taux d'hallucination, ce qui signifie que nous devons valoriser les réponses qui disent «je ne sais pas» ainsi que les réponses avec les bonnes réponses.
En réalité, je n'ai aucune idée de ce que fera Openai ni de la façon dont ses chercheurs sont vraiment inquiets sur le taux croissant d'hallucinations. Tout ce que je sais, c'est que plus d'hallucinations sont mauvaises pour les utilisateurs finaux – cela signifie simplement de plus en plus d'opportunités pour nous d'être induits en erreur sans s'en rendre compte. Si vous êtes grand dans les LLM, il n'est pas nécessaire de cesser de les utiliser – mais ne laissez pas le désir d'économiser du temps gagner sur la nécessité de vérifier les résultats. Toujours vérifier les faits!