Pour Android les développeurs d'applications s'appuient sur l'IA pour coder, choisir le bon modèle peut être délicat. Tous les modèles ne sont pas construits de la même manière et beaucoup ne sont pas spécifiquement formés aux workflows de développement Android. Pour résoudre ce problème, Google a introduit une nouvelle référence pour aider les développeurs à comprendre dans quelle mesure les différents modèles d'IA fonctionnent sur les tâches de codage Android réelles.
Banc Android surnomméle nouveau benchmark est conçu pour évaluer dans quelle mesure les grands modèles de langage (LLM) gèrent les tâches de développement Android typiques. Google explique que le benchmark évalue des modèles utilisant des tâches du monde réel provenant de projets publics sur GitHub et demande aux modèles de recréer des demandes d'extraction réelles et de résoudre des problèmes similaires à ceux rencontrés par les développeurs lors de la création d'applications Android. Les résultats sont ensuite vérifiés pour voir s’ils résolvent réellement le problème.
En termes plus simples, le benchmark vérifie si le code généré par les modèles d’IA résout réellement le problème au lieu de simplement paraître correct en surface. Cela aide Google à mesurer l’utilité réelle des différents modèles lorsqu’il s’agit de résoudre de vrais problèmes de développement Android.
Avec la première version d'Android Bench, Google prévoyait « de mesurer uniquement les performances du modèle et de ne pas se concentrer sur l'utilisation d'agents ou d'outils ». Les résultats mettent en évidence un écart important, les modèles accomplissant avec succès entre 16 % et 72 % des tâches de référence. La société affirme que la publication de ces résultats devrait permettre aux développeurs de comparer plus facilement les modèles et de choisir ceux qui sont réellement capables de gérer de vrais problèmes de codage Android.
En plus de guider les développeurs, le benchmark pourrait également pousser les sociétés d'IA à améliorer la compréhension de leurs modèles du développement Android. Pour soutenir cet effort, Google a publié la méthodologie, l'ensemble de données et le cadre de test d'Android Bench sur GitHub. Au fil du temps, cela pourrait conduire à des outils d’IA mieux équipés pour naviguer dans des bases de code Android complexes et aider les développeurs à créer et à réparer des applications plus efficacement.








