Gemma 4

Gemma 4 是什么？

Gemma 4 是一款开源模型族，专为运行在各种开发者和边缘硬件上而设计。它针对高级推理和“agentic workflows”，超越基本聊天，支持需要多步逻辑和工具使用的任务。

Gemma 4 以 Apache 2.0 许可发布，定位为 Google Gemini 模型的补充，为开发者提供可本地运行和针对自身任务微调的开源模型选项。

多种模型尺寸适配不同硬件：Gemma 4 提供四种尺寸——Effective 2B (E2B)、Effective 4B (E4B)、26B Mixture of Experts (MoE) 和 31B Dense，开发者可根据容量与运行时需求选择。
Agentic workflow 支持：原生支持 function-calling、structured JSON output 和 native system instructions，助力构建与工具和 API 交互的智能体。
高级推理：在数学和指令跟随基准测试中展现改进，支持多步规划和更深层逻辑。
本地代码生成：支持高质量 offline code 生成，实现本地优先的 AI 代码助手工作流。
多模态输入（边缘尺寸支持视频、图像和音频）：所有模型原生处理 video and images，用于 OCR 和图表理解；E2B 和 E4B 模型还支持 native audio input 用于语音识别和理解。
长上下文处理：边缘模型支持 128K context window，更大模型支持 up to 256K，可处理包含长文档或代码库的提示。
多语言能力：原生训练于 over 140 languages，适用于广泛语言应用开发。

选择尺寸，匹配您的硬件和延迟需求（E2B/E4B 用于边缘/本地多模态；26B/31B 用于合适 GPU/工作站上的更强推理）。
运行模型权重，本地集成到应用工作流中。
针对任务微调，以获得特定性能；源文档指出 Gemma 4 尺寸设计便于硬件上高效运行和微调。
构建类智能体流程时，使用 function-calling 和 structured JSON outputs 等能力，调用工具并生成机器可读结果。

构建自主工具使用智能体：结合 function-calling 和 structured JSON output，让模型执行与外部工具或 API 交互的多步工作流。
本地优先编码助手：在工作站离线运行 Gemma 4 进行代码生成，无需远程推理，并结构化响应适配开发者工作流。
文档中的 OCR 和图表理解：向相应模型变体发送图像（及视频内容），提取文本或解读图表。
语音边缘应用：使用 E2B 或 E4B 的 native audio input，实现低延迟场景下的语音识别和理解。
长篇文档分析：将长文档或代码库上下文输入支持 256K 上下文窗口的模型，进行持续推理任务。

Gemma 4 是开源的吗？ Gemma 4 以 Apache 2.0 license 发布。
有哪些模型尺寸？ 提供 Effective 2B (E2B)、Effective 4B (E4B)、26B Mixture of Experts (MoE) 和 31B Dense。
Gemma 4 支持智能体工具使用吗？ 是的。源文档指定原生 function-calling、structured JSON output 和 native system instructions 用于 agentic workflows。
Gemma 4 支持哪些输入类型？ 所有模型原生处理 video and images。E2B 和 E4B 模型还支持 native audio input 用于语音识别和理解。
上下文处理长度是多少？ 边缘模型提供 128K 上下文窗口，更大模型支持 up to 256K。

其他开源权重 LLM 家族：如果您主要需要可本地运行的开源模型，可将 Gemma 4 与其他提供不同尺寸层级和上下文长度的开源权重语言模型家族进行比较。
专有云端代理平台：如果您更偏好用于代理执行和工具编排的托管服务而非本地推理，云端产品可减少基础设施工作，但需以远程运行模型为代价。
其他供应商的多模态模型：对于 OCR/视频/图表 + 语音需求，可与明确支持您计划使用的模态（图像/视频和音频）的多模态模型家族进行比较。
模型编排框架（代理运行时）：如果您的主要目标是可靠的工具调用和结构化输出，可考虑支持多种底层模型提供商（包括开源模型）的代理编排库/框架。