UStackUStack
Gemma 4 12B icon

Gemma 4 12B

Gemma 4 12B est un modèle IA multimodal de Google DeepMind pour l’inférence locale sur ordinateur portable, avec vision, audio et texte.

Gemma 4 12B

Qu’est-ce que Gemma 4 12B ?

Gemma 4 12B est un modèle IA multimodal de Google DeepMind conçu pour fonctionner localement sur les ordinateurs portables tout en prenant en charge les entrées vision, audio et texte dans une architecture unique. Il se situe entre le modèle plus petit Gemma 4 E4B, orienté edge, et le modèle Mixture of Experts de 26B, avec l’objectif d’intégrer un raisonnement avancé dans une empreinte mémoire réduite.

Le modèle utilise une conception sans encodeur, ce qui signifie que les entrées visuelles et audio sont transmises directement au backbone du modèle de langage plutôt que de passer par des encodeurs multimodaux séparés. Selon Google, cette approche vise à réduire la latence et l’utilisation mémoire tout en prenant en charge les workflows agentiques et l’inférence locale sur du matériel grand public avec 16 Go de VRAM ou de mémoire unifiée. Gemma 4 12B est publié sous licence Apache 2.0 et destiné aux développeurs qui souhaitent créer et déployer des applications multimodales avec des outils locaux ou une infrastructure cloud.

Fonctionnalités clés

  • Architecture multimodale unifiée : traite directement la vision et l’audio dans le backbone du LLM sans encodeurs multimodaux séparés, ce qui simplifie le pipeline et réduit les coûts supplémentaires.
  • Prise en charge native de l’audio : Gemma 4 12B est présenté comme le premier modèle Gemma 4 de taille intermédiaire avec des entrées audio natives, ce qui le rend adapté aux workflows audio + texte.
  • Déploiement local sur ordinateur portable : Google indique que le modèle est suffisamment compact pour fonctionner sur des ordinateurs portables avec 16 Go de VRAM ou de mémoire unifiée, ce qui élargit les expérimentations hors ligne et sur l’appareil.
  • Performances de raisonnement avancées : le modèle atteindrait des performances de benchmark proches du modèle MoE 26B plus grand, prenant en charge le raisonnement en plusieurs étapes et les workflows agentiques.
  • Drafts de Multi-Token Prediction : les drafts MTP intégrés sont conçus pour réduire la latence lors de la génération.
  • Version ouverte et prise en charge de l’écosystème : les poids sont disponibles sur Hugging Face et Kaggle, et le modèle est pris en charge par des outils tels que Hugging Face Transformers, llama.cpp, MLX, SGLang, vLLM et Unsloth.

Comment utiliser Gemma 4 12B

Les développeurs peuvent commencer par tester le modèle dans des applications et outils locaux tels que LM Studio, Ollama, Google AI Edge Gallery App, l’application Google AI Edge Eloquent ou la CLI LiteRT-LM. Ils peuvent aussi télécharger les checkpoints préentraînés et ajustés par instruction depuis Hugging Face ou Kaggle, puis consulter la documentation développeur et le notebook de démarrage rapide.

À partir de là, le modèle peut être intégré dans des pipelines d’inférence locale ou optimisé par fine-tuning selon le workflow. Pour le déploiement en production, Google oriente aussi les développeurs vers des options cloud comme Gemini Enterprise Agent Platform Model Garden, Cloud Run et GKE.

Cas d’utilisation

  • Assistants multimodaux locaux : créez un assistant sur l’appareil capable de prendre en charge le texte, les images et l’audio tout en gardant l’inférence sur un ordinateur portable plutôt que d’envoyer les données vers un service distant.
  • Workflows agentiques : créez des agents en plusieurs étapes qui raisonnent sur les entrées, planifient des actions et utilisent un comportement de type outil dans une configuration locale ou hybride.
  • Applications sensibles à l’audio : prototypez des applications qui doivent interpréter l’audio en plus du texte, comme la prise de notes, des workflows assistés par transcription ou des invites multimodales.
  • Expérimentation développeur : testez le comportement du modèle, la conception des prompts et les pipelines d’inférence avec des outils locaux courants avant de passer à un déploiement plus large.
  • Pipelines de déploiement en production : utilisez le modèle dans des environnements de service cloud lorsque le développement local doit évoluer vers des endpoints gérés ou une infrastructure scalable.

FAQ

Gemma 4 12B nécessite-t-il des encodeurs vision et audio séparés ?
Non. Google le décrit comme un modèle multimodal sans encodeur, où les entrées vision et audio sont transmises directement au backbone du modèle de langage.

Gemma 4 12B peut-il fonctionner sur un ordinateur portable ?
Oui, Google indique qu’il est suffisamment compact pour fonctionner localement sur du matériel avec 16 Go de VRAM ou de mémoire unifiée.

Le modèle est-il ouvert aux développeurs ?
Oui. Il est publié sous licence Apache 2.0 et les poids sont disponibles via Hugging Face et Kaggle.

Avec quels outils peut-il être utilisé ?
Le billet mentionne des outils locaux et de développement notamment LM Studio, Ollama, Google AI Edge Gallery App, LiteRT-LM CLI, Hugging Face Transformers, llama.cpp, MLX, SGLang, vLLM et Unsloth.

Est-il réservé à un usage local ?
Non. Google décrit aussi des options de déploiement sur Google Cloud, notamment Gemini Enterprise Agent Platform Model Garden, Cloud Run et GKE.

Alternatives

  • Modèles multimodaux plus petits, axés sur l’edge : Ils conviennent mieux aux cibles très contraintes en ressources et peuvent sacrifier une partie de la profondeur de raisonnement au profit de l’efficacité.
  • Modèles multimodaux plus grands : Les modèles avec davantage de paramètres ou des architectures Mixture of Experts peuvent offrir de meilleures capacités, mais ils nécessitent généralement plus de mémoire et d’infrastructure.
  • Modèles multimodaux traditionnels basés sur des encodeurs : Ils utilisent des encodeurs séparés pour les images et l’audio, ce qui peut faciliter la compréhension de leur architecture, mais ajoute souvent de la latence et une surcharge mémoire.
  • API multimodales uniquement dans le cloud : Elles sont utiles lorsque les équipes préfèrent des services gérés à l’inférence locale, mais elles n’offrent pas le même flux de travail sur l’appareil décrit pour Gemma 4 12B.
Gemma 4 12B | UStack