UStackUStack
Gemma 4 12B icon

Gemma 4 12B

Gemma 4 12B 是来自 Google DeepMind 的多模态 AI 模型,支持笔记本本地推理,融合视觉、音频和文本,适合打造需要强推理能力且更省内存的 agentic 应用。

Gemma 4 12B

什么是 Gemma 4 12B?

Gemma 4 12B 是来自 Google DeepMind 的多模态 AI 模型,旨在笔记本上本地运行,同时在单一架构中处理视觉、音频和文本输入。它位于更小、偏边缘端的 Gemma 4 E4B 模型与更大的 26B Mixture of Experts 模型之间,重点是在更小的内存占用下实现高级推理能力。

该模型采用无编码器设计,这意味着视觉和音频输入会直接进入语言模型主干,而不是先经过独立的多模态编码器。根据 Google 的说法,这种方式旨在降低延迟和内存占用,同时支持 agentic 工作流,以及在配备 16GB VRAM 或统一内存的消费级硬件上进行本地推理。Gemma 4 12B 采用 Apache 2.0 许可证发布,面向希望使用本地工具或云基础设施构建和部署多模态应用的开发者。

主要特性

  • 统一多模态架构: 在 LLM 主干中直接处理视觉和音频,无需独立的多模态编码器,从而简化流程并降低开销。
  • 原生音频输入支持: Gemma 4 12B 被描述为首个支持原生音频输入的中型 Gemma 4 模型,适合音频+文本工作流。
  • 本地笔记本部署: Google 表示该模型足够小,可在配备 16GB VRAM 或统一内存的笔记本上运行,从而扩展离线和端侧实验场景。
  • 高级推理性能: 据称该模型的基准表现接近更大的 26B MoE 模型,支持多步推理和 agentic 工作流。
  • Multi-Token Prediction drafters: 内置的 MTP drafters 旨在降低生成时的延迟。
  • 开放发布与生态支持: 权重可在 Hugging Face 和 Kaggle 上获取,并且支持 Hugging Face Transformers、llama.cpp、MLX、SGLang、vLLM 和 Unsloth 等工具。

如何使用 Gemma 4 12B

开发者可以先在本地应用和工具中试用该模型,例如 LM Studio、Ollama、Google AI Edge Gallery App、Google AI Edge Eloquent app 或 LiteRT-LM CLI。也可以从 Hugging Face 或 Kaggle 下载预训练和指令微调检查点,然后查看开发者文档和快速开始笔记本。

之后,可根据工作流将该模型集成到本地推理管线中,或针对效率进行微调。对于生产部署,Google 还为开发者提供了诸如 Gemini Enterprise Agent Platform Model Garden、Cloud Run 和 GKE 等云端选项。

使用场景

  • 本地多模态助手: 构建可处理文本、图像和音频的端侧助手,同时将推理保留在笔记本上,而不是将数据发送到远程服务。
  • Agentic 工作流: 创建能对输入进行推理、规划动作并以工具式行为运行的多步代理,支持本地或混合部署。
  • 音频感知应用: 原型开发需要将音频与文本一起理解的应用,例如记笔记、转录辅助工作流或多模态提示。
  • 开发者实验: 在迁移到更大规模部署之前,使用常见本地工具测试模型行为、提示设计和推理管线。
  • 生产部署管线: 当本地开发需要过渡到托管端点或可扩展基础设施时,可在基于云的服务环境中使用该模型。

常见问题

Gemma 4 12B 需要单独的视觉和音频编码器吗?
不需要。Google 将其描述为无编码器的多模态模型,视觉和音频输入会直接进入语言模型主干。

Gemma 4 12B 可以在笔记本上运行吗?
可以,Google 表示它足够小,可在配备 16GB VRAM 或统一内存的硬件上本地运行。

该模型对开发者开放吗?
是的。它采用 Apache 2.0 许可证发布,权重可通过 Hugging Face 和 Kaggle 获取。

它可以搭配哪些工具使用?
文章提到了本地和开发工具,包括 LM Studio、Ollama、Google AI Edge Gallery App、LiteRT-LM CLI、Hugging Face Transformers、llama.cpp、MLX、SGLang、vLLM 和 Unsloth。

它只适合本地使用吗?
不是。Google 也描述了在 Google Cloud 上的部署选项,包括 Gemini Enterprise Agent Platform Model Garden、Cloud Run 和 GKE。

替代方案

  • 更小的、面向边缘设备的多模态模型: 更适合对设备限制极严的目标平台,通常会为了效率牺牲一部分推理深度。
  • 更大的多模态模型: 参数更多或采用 Mixture of Experts 架构的模型可能能力更强,但通常需要更多内存和基础设施。
  • 传统的基于编码器的多模态模型: 这类模型为图像和音频分别使用独立编码器,架构上更容易理解,但往往会增加延迟和内存开销。
  • 仅云端的多模态 API: 当团队更偏好托管服务而不是本地推理时,这类方案很有用,但它们不提供与 Gemma 4 12B 相同的设备端工作流。
Gemma 4 12B | UStack