UStackUStack
Gemma 4 icon

Gemma 4

Gemma 4 開放模型家族,支援進階推理與 agentic workflows,可用多種規格在本地與邊緣部署;支援多模態輸入與長上下文。

Gemma 4

Gemma 4 是什麼?

Gemma 4 是一款開放模型家族,設計用於在各種開發者和邊緣硬體上運行。它針對進階推理與「agentic workflows」,超越基本聊天,支援需要多步邏輯與工具使用的任務。

Gemma 4 以 Apache 2.0 授權釋出,定位為補充 Google 的 Gemini 模型,提供開發者可本地運行並微調的開放模型選項,用於自家任務。

主要特色

  • 多種模型規格對應不同硬體:Gemma 4 提供四種規格—Effective 2B (E2B)、Effective 4B (E4B)、26B Mixture of Experts (MoE) 與 31B Dense,讓開發者依容量與運行需求選擇。
  • Agentic workflow 支援:原生支援 function-callingstructured JSON outputnative system instructions,協助建構與工具和 API 互動的代理。
  • 進階推理:在數學與指令遵循基準測試上展現改進,涵蓋需要多步規劃與更深邏輯的任務。
  • 本地程式碼生成:支援高品質 offline code 生成,實現本地優先的 AI 程式碼助理工作流程。
  • 多模態輸入(邊緣規格支援影片、圖像與音訊):所有模型原生處理 video and images,用於 OCR 與圖表理解;E2B and E4B 模型另支援 native audio input,用於語音辨識與理解。
  • 長上下文處理:邊緣模型支援 128K context window,較大模型支援 up to 256K,可處理包含長文件或程式庫的提示。
  • 多語言能力:原生訓練於 over 140 languages,適用廣泛語言應用開發。

如何使用 Gemma 4

  1. 選擇規格,符合硬體與延遲需求(E2B/E4B 用於邊緣/本地多模態;26B/31B 用於合適 GPU/工作站的強大推理)。
  2. 本地運行模型權重,並整合至應用工作流程。
  3. 針對任務微調,以獲得特定效能;原始資料指出 Gemma 4 設計為在硬體上高效運行與微調。
  4. 建構代理式流程時,使用如 function-callingstructured JSON outputs 等模型功能,呼叫工具並產生機器可讀結果。

使用情境

  • 建構自主工具使用代理:結合 function-calling 與 structured JSON output,讓模型執行與外部工具或 API 互動的多步工作流程。
  • 本地優先程式碼助理:在工作站離線運行 Gemma 4 進行程式碼生成,不依賴遠端推論,並結構化回應適配開發工作流程。
  • 文件中的 OCR 與圖表理解:將圖像(與影片內容)傳送至適當模型變體,透過 OCR 擷取文字或解讀圖表。
  • 語音啟用邊緣應用:使用 E2B 或 E4B 搭配 native audio input,在低延遲情境下進行語音辨識與理解。
  • 長篇文件分析:將長文件或程式庫上下文輸入支援至 256K 上下文視窗的模型,支援需要持續推理的任務。

常見問題

  • Gemma 4 是開源的嗎?

    Gemma 4 以 Apache 2.0 license 釋出。

  • 有哪些模型規格?

    家族提供 Effective 2B (E2B)Effective 4B (E4B)26B Mixture of Experts (MoE)31B Dense

  • Gemma 4 支援代理工具使用嗎?

    是。原始資料指定原生 function-callingstructured JSON outputnative system instructions,用於 agentic workflows。

  • Gemma 4 能處理哪些輸入?

    所有模型原生處理 video and imagesE2B and E4B 模型另支援 native audio input,用於語音辨識與理解。

  • 能處理多少上下文?

    邊緣模型提供 128K 上下文視窗,較大模型提供 up to 256K

替代方案

  • 其他開放權重 LLM 家族:若您主要需要可在本地執行的開放模型,可將 Gemma 4 與其他提供不同規格與上下文長度的開放權重語言模型家族比較。
  • 專有雲端代理平台:若您偏好使用託管服務來執行代理與工具協調,而非本地推論,則雲端方案可減少基礎設施工作,但需以遠端執行模型為代價。
  • 其他供應商的多模態模型:針對 OCR/影片/圖表 + 語音需求,可與明確支援您計劃使用模態(影像/影片與音訊)的多模態模型家族比較。
  • 模型協調框架(代理運行時):若您的主要目標是可靠的工具呼叫與結構化輸出,則可考慮可搭配多個底層模型供應商(包含開放模型)運行的代理協調程式庫/框架。
Gemma 4 | UStack