UStackUStack
Gemma 4 12B icon

Gemma 4 12B

Gemma 4 12B 是來自 Google DeepMind 的多模態 AI 模型,支援視覺、音訊與文字,適合在筆電本機推理,為開發代理式應用提供強大推理與較小記憶體占用。

Gemma 4 12B

Gemma 4 12B 是什麼?

Gemma 4 12B 是來自 Google DeepMind 的多模態 AI 模型,設計為可在筆電本機執行,並以單一架構處理視覺、音訊與文字輸入。它位於較小、偏向邊緣裝置的 Gemma 4 E4B 與較大的 26B Mixture of Experts 模型之間,重點是將進階推理能力納入較小的記憶體占用。

此模型採用無編碼器設計,代表視覺與音訊輸入會直接流入語言模型骨幹,而不是先經過獨立的多模態編碼器。根據 Google 的說法,這種做法旨在降低延遲與記憶體用量,同時支援代理式工作流程,以及在配備 16GB VRAM 或統一記憶體的消費級硬體上進行本機推理。Gemma 4 12B 以 Apache 2.0 授權釋出,適合想要使用本機工具或雲端基礎架構來建置與部署多模態應用的開發者。

主要功能

  • 統一多模態架構: 直接在 LLM 骨幹中處理視覺與音訊,無需獨立多模態編碼器,簡化流程並降低額外負擔。
  • 原生音訊輸入支援: Gemma 4 12B 被描述為首款支援原生音訊輸入的中型 Gemma 4 模型,適合音訊加文字的工作流程。
  • 可在筆電本機部署: Google 表示此模型足夠小,可在配備 16GB VRAM 或統一記憶體的筆電上執行,拓展離線與裝置端實驗的可能性。
  • 進階推理表現: 據稱此模型的基準表現接近更大的 26B MoE 模型,支援多步驟推理與代理式工作流程。
  • Multi-Token Prediction drafter: 內建 MTP drafter 用於降低生成時的延遲。
  • 開放釋出與生態支援: 權重可在 Hugging Face 與 Kaggle 取得,並支援 Hugging Face Transformers、llama.cpp、MLX、SGLang、vLLM 與 Unsloth 等工具。

如何使用 Gemma 4 12B

開發者可以先在本機應用與工具中試用此模型,例如 LM Studio、Ollama、Google AI Edge Gallery App、Google AI Edge Eloquent app 或 LiteRT-LM CLI。也可以從 Hugging Face 或 Kaggle 下載預訓練與 instruction-tuned checkpoint,接著參考開發者文件與快速入門 notebook。

之後,可依工作流程將模型整合進本機推理管線,或進行微調以提升效率。若要正式部署,Google 也提供雲端選項,如 Gemini Enterprise Agent Platform Model Garden、Cloud Run 與 GKE。

使用案例

  • 本機多模態助理: 建立可處理文字、圖片與音訊的裝置端助理,同時將推理留在筆電上,而非傳送到遠端服務。
  • 代理式工作流程: 建立多步驟代理,對輸入進行推理、規劃動作,並在本機或混合式架構中使用類工具行為。
  • 具備音訊感知的應用: 原型開發需要同時解讀音訊與文字的應用,例如筆記、轉錄輔助工作流程或多模態提示。
  • 開發者實驗: 在轉往較大規模部署前,使用常見本機工具測試模型行為、提示設計與推理管線。
  • 正式部署管線: 當本機開發需要轉移到代管端點或可擴充基礎架構時,可在雲端服務環境中使用此模型。

常見問題

Gemma 4 12B 需要獨立的視覺與音訊編碼器嗎?
不需要。Google 將其描述為無編碼器多模態模型,視覺與音訊輸入會直接流入語言模型骨幹。

Gemma 4 12B 可以在筆電上執行嗎?
可以,Google 表示它小到足以在配備 16GB VRAM 或統一記憶體的硬體上本機執行。

這個模型對開發者開放嗎?
是的。它以 Apache 2.0 授權釋出,且權重可透過 Hugging Face 與 Kaggle 取得。

可以搭配哪些工具使用?
文章提到的本機與開發工具包括 LM Studio、Ollama、Google AI Edge Gallery App、LiteRT-LM CLI、Hugging Face Transformers、llama.cpp、MLX、SGLang、vLLM 與 Unsloth。

它只能用於本機嗎?
不是。Google 也說明了 Google Cloud 上的部署選項,包括 Gemini Enterprise Agent Platform Model Garden、Cloud Run 與 GKE。

替代方案

  • 較小、以邊緣裝置為主的多模態模型: 這類模型更適合裝置資源極為受限的目標,可能會為了效率而犧牲部分推理深度。
  • 較大型的多模態模型: 參數更多或採用 Mixture of Experts 架構的模型,可能提供更高能力,但通常需要更多記憶體與基礎架構。
  • 傳統的編碼器式多模態模型: 這類模型為影像和音訊使用分離的編碼器,架構上可能更容易理解,但通常會增加延遲與記憶體負擔。
  • 僅雲端的多模態 API: 當團隊偏好託管服務而非本機推理時,這類方案很有用,但無法提供與 Gemma 4 12B 相同的裝置端工作流程。
Gemma 4 12B | UStack