Cela fait près de deux ans que le PDG de Microsoft, Satya Nadella, avait prédit que l'IA générative prendrait le relais du travail de connaissance, mais si vous regardez un cabinet d'avocats ou une banque d'investissement typique aujourd'hui, la main-d'œuvre humaine est toujours aux commandes. Malgré tout le battage médiatique autour du « raisonnement » et de la « planification », une nouvelle étude de la société de données de formation Mercor explique exactement pourquoi la révolution robotique est au point mort : l'IA ne peut tout simplement pas gérer le désordre du travail réel.
Un test de réalité pour la théorie du « remplacement »
Mercor a publié un nouveau benchmark appelé APEX-Agents, et il est brutal. contrairement aux tests habituels qui demandent à l’IA d’écrire un poème ou de résoudre un problème mathématique, celui-ci utilise de véritables requêtes provenant d’avocats, de consultants et de banquiers. Il demande aux modèles d'effectuer des tâches complètes en plusieurs étapes qui nécessitent de passer d'un type d'information à l'autre.
Les résultats? Même les meilleurs modèles du marché (nous parlons de Gemini 3 Flash et GPT-5.2) ne parviennent pas à atteindre un taux de précision de 25 %. Les Gémeaux étaient en tête du peloton avec 24 %, avec GPT-5.2 juste derrière à 23 %. La plupart des autres étaient coincés chez les adolescents.
Pourquoi l’IA échoue au « test de bureau »
Brendan Foody, PDG de Mercor, souligne que le problème n'est pas une question de renseignement brut ; c'est le contexte. Dans le monde réel, les réponses ne sont pas servies sur un plateau d’argent. Un avocat doit consulter un fil de discussion Slack, lire une politique PDF, consulter une feuille de calcul, puis synthétiser tout cela pour répondre à une question sur la conformité au RGPD.
Les humains effectuent naturellement ce changement de contexte. Il s’avère que l’IA est terrible dans ce domaine. Lorsque vous forcez ces modèles à rechercher des informations dans des sources « dispersées », soit ils se perdent, donnent la mauvaise réponse, soit abandonnent complètement.
Le « stagiaire peu fiable »
Pour tous ceux qui s’inquiètent de leur sécurité d’emploi, c’est un peu un soulagement. L’étude suggère qu’à l’heure actuelle, l’IA fonctionne moins comme un professionnel chevronné que comme un stagiaire peu fiable qui fait les choses correctement environ un quart du temps.
Cela dit, les progrès sont terriblement rapides. Foody a noté qu'il y a à peine un an, ces modèles obtenaient des scores compris entre 5 et 10 %. Ils atteignent désormais 24 %. Ainsi, même s'ils ne sont pas encore prêts à prendre le volant, ils apprennent à conduire beaucoup plus vite que prévu. Pour l’instant, cependant, la révolution du « travail de la connaissance » est en suspens jusqu’à ce que les robots apprennent à effectuer plusieurs tâches à la fois.








