Gemma 4

Gemma 4 是什麼？

Gemma 4 是一款開放模型家族，設計用於在各種開發者和邊緣硬體上運行。它針對進階推理與「agentic workflows」，超越基本聊天，支援需要多步邏輯與工具使用的任務。

Gemma 4 以 Apache 2.0 授權釋出，定位為補充 Google 的 Gemini 模型，提供開發者可本地運行並微調的開放模型選項，用於自家任務。

多種模型規格對應不同硬體：Gemma 4 提供四種規格—Effective 2B (E2B)、Effective 4B (E4B)、26B Mixture of Experts (MoE) 與 31B Dense，讓開發者依容量與運行需求選擇。
Agentic workflow 支援：原生支援 function-calling、structured JSON output 與 native system instructions，協助建構與工具和 API 互動的代理。
進階推理：在數學與指令遵循基準測試上展現改進，涵蓋需要多步規劃與更深邏輯的任務。
本地程式碼生成：支援高品質 offline code 生成，實現本地優先的 AI 程式碼助理工作流程。
多模態輸入（邊緣規格支援影片、圖像與音訊）：所有模型原生處理 video and images，用於 OCR 與圖表理解；E2B and E4B 模型另支援 native audio input，用於語音辨識與理解。
長上下文處理：邊緣模型支援 128K context window，較大模型支援 up to 256K，可處理包含長文件或程式庫的提示。
多語言能力：原生訓練於 over 140 languages，適用廣泛語言應用開發。

選擇規格，符合硬體與延遲需求（E2B/E4B 用於邊緣/本地多模態；26B/31B 用於合適 GPU/工作站的強大推理）。
本地運行模型權重，並整合至應用工作流程。
針對任務微調，以獲得特定效能；原始資料指出 Gemma 4 設計為在硬體上高效運行與微調。
建構代理式流程時，使用如 function-calling 與 structured JSON outputs 等模型功能，呼叫工具並產生機器可讀結果。

建構自主工具使用代理：結合 function-calling 與 structured JSON output，讓模型執行與外部工具或 API 互動的多步工作流程。
本地優先程式碼助理：在工作站離線運行 Gemma 4 進行程式碼生成，不依賴遠端推論，並結構化回應適配開發工作流程。
文件中的 OCR 與圖表理解：將圖像（與影片內容）傳送至適當模型變體，透過 OCR 擷取文字或解讀圖表。
語音啟用邊緣應用：使用 E2B 或 E4B 搭配 native audio input，在低延遲情境下進行語音辨識與理解。
長篇文件分析：將長文件或程式庫上下文輸入支援至 256K 上下文視窗的模型，支援需要持續推理的任務。

Gemma 4 是開源的嗎？

Gemma 4 以 Apache 2.0 license 釋出。
有哪些模型規格？

家族提供 Effective 2B (E2B)、Effective 4B (E4B)、26B Mixture of Experts (MoE) 與 31B Dense。
Gemma 4 支援代理工具使用嗎？

是。原始資料指定原生 function-calling、structured JSON output 與 native system instructions，用於 agentic workflows。
Gemma 4 能處理哪些輸入？

所有模型原生處理 video and images。E2B and E4B 模型另支援 native audio input，用於語音辨識與理解。
能處理多少上下文？

邊緣模型提供 128K 上下文視窗，較大模型提供 up to 256K。