Les efforts d'IA de Google sont synonymes de Gemini, qui est maintenant devenu un élément intégral de ses produits les plus populaires à travers les logiciels et le matériel de la théâtre Works. Cependant, la société a également publié plusieurs modèles d'IA open source sous le label Gemma depuis plus d'un an maintenant.
Aujourd'hui, Google a révélé ses modèles d'IA open-source de troisième génération avec des affirmations impressionnantes en remorque. Les modèles GEMMA 3 sont disponibles en quatre variantes – 1 milliard, 4 milliards, 12 milliards et 27 milliards de paramètres – et sont conçus pour fonctionner sur des appareils allant des smartphones aux postes de travail costaud.
Prêt pour les appareils mobiles
Google dit que Gemma 3 est le meilleur modèle à un seul accélérateur au monde, ce qui signifie qu'il peut fonctionner sur un seul GPU ou TPU au lieu de nécessiter un cluster entier. Théoriquement, cela signifie qu'un modèle GEMMA 3 AI peut s'exécuter nativement sur l'unité de base de traitement du tenseur du smartphone Pixel (TPU), tout comme il exécute localement le modèle Gemini Nano sur les téléphones.
Le plus grand avantage de Gemma 3 sur la famille Gemini de modèles d'IA est que, comme il est open-source, les développeurs peuvent l'emballer et l'expédier en fonction de leurs exigences uniques dans les applications mobiles et les logiciels de bureau. Un autre avantage crucial est que Gemma prend en charge plus de 140 langues, dont 35 faisant partie d'un package pré-formé.
Et tout comme les derniers modèles Gemini 2.0, Gemma 3 est également capable de comprendre le texte, les images et les vidéos. En un mot, il est multimultimdal. Du côté de la performance, Gemma 3 est censé dépasser d'autres modèles d'IA à source ouverte populaire tels que Deepseek V3, la variante Openai O3-Mini et Meta's LLAMA-405B de Meta.
Polyvalent et prêt à déployer
En prenant à propos de la plage d'entrée, Gemma 3 propose une fenêtre de contexte d'une valeur de 128 000 jetons. Cela suffit pour couvrir un livre complet de 200 pages poussé comme une entrée. À titre de comparaison, la fenêtre de contexte pour le modèle Flash Lite Gemini 2.0 de Google se situe à un million de jetons. Dans le contexte des modèles d'IA, un mot de langue anglaise moyen est à peu près équivalent à 1,3 jetons.


Gemma 3 prend également en charge l'appel de fonction et la sortie structurée, ce qui signifie essentiellement qu'il peut interagir avec des ensembles de données externes et effectuer des tâches comme un agent automatisé. L'analogie la plus proche serait des Gémeaux et de la façon dont il peut faire du travail sur différentes plates-formes telles que Gmail ou Docs de manière transparente.
Les derniers modèles d'IA open source de Google peuvent être déployés localement, soit via les plates-formes basées sur le cloud de l'entreprise telles que la suite Vertex AI. Les modèles GEMMA 3 AI sont maintenant disponibles via le studio Google AI, ainsi que des référentiels tiers tels que Hugging Face, Olllama et Kaggle.


Gemma 3 fait partie d'une tendance de l'industrie où les entreprises travaillent sur des modèles de grande langue (Gemini, dans le cas de Google) et poussent simultanément les modèles de petits langues (SLM). Microsoft suit également une stratégie similaire avec sa série PHI open source de modèles de petits langues.
Les modèles de petits langues tels que Gemma et PHI sont extrêmement efficaces aux ressources, ce qui en fait un choix idéal pour fonctionner sur des appareils tels que les smartphones. Moroever, comme ils offrent une latence plus faible, ils sont particulièrement bien adaptés aux applications mobiles.