UStackUStack
Gemma 4 icon

Gemma 4

Gemma 4は高度な推論とエージェント型ワークフロー向けのオープンモデル。複数サイズでローカル/エッジ導入、長文対応・マルチモーダルに対応。

Gemma 4

Gemma 4とは?

Gemma 4は、開発者およびエッジハードウェアの幅広い範囲で動作するよう設計されたオープンモデルファミリーです。高度な推論と「agentic workflows」を対象とし、基本的なチャットを超えて、多段階ロジックやツール使用を要するタスクをサポートします。

Gemma 4はApache 2.0ライセンスでリリースされており、GoogleのGeminiモデルを補完する形で、開発者がローカルで実行・ファインチューニング可能なオープンモデルオプションを提供します。

主な機能

  • さまざまなハードウェア向けの複数モデルサイズ: Gemma 4は4つのサイズでリリース—Effective 2B (E2B)Effective 4B (E4B)26B Mixture of Experts (MoE)31B Dense—で、開発者が容量と実行時のニーズを選択可能。
  • Agentic workflow対応: function-callingstructured JSON outputnative system instructionsのネイティブサポートにより、ツールやAPIと連携するエージェント構築を支援。
  • 高度な推論: 多段階計画や深いロジックを要する数学・指示追従ベンチマークで改善を示す。
  • ローカル向けコード生成: 高品質なoffline code生成をサポートし、ローカル優先のAIコードアシスタントワークフローを実現。
  • マルチモーダル入力(エッジサイズで動画/画像/音声): 全モデルがvideo and imagesをネイティブ処理(OCRやチャート理解など);E2B and E4Bnative audio inputもサポートし、音声認識・理解に対応。
  • 長文コンテキスト処理: エッジモデルは128K context window、大型モデルは最大256Kをサポートし、長文ドキュメントやリポジトリを含むプロンプトを可能に。
  • 多言語対応: 140言語以上でネイティブ訓練され、広範な言語アプリケーション開発を支援。

Gemma 4の使い方

  1. ハードウェア・レイテンシ要件に合ったサイズを選択(エッジ/ローカルマルチモーダル用にE2B/E4B;高性能推論用に適したGPU/ワークステーションで26B/31B)。
  2. モデルウェイトをローカル実行し、アプリケーション workflow に統合。
  3. タスク特化性能が必要な場合にタスクでファインチューニング;Gemma 4はハードウェア上で効率的に実行・ファインチューニング可能。
  4. ツール呼び出しや機械可読結果生成のエージェント風フロー構築時にfunction-callingstructured JSON outputsなどの機能を使用。

ユースケース

  • 自律ツール使用エージェントの構築: function-callingとstructured JSON outputを使い、外部ツールやAPIと連携する多段階ワークフローを実行。
  • ローカル優先コーディングアシスタント: リモート推論に頼らずワークステーション上でGemma 4をオフライン実行し、開発者ワークフローに適合したコード生成と応答構造化。
  • ドキュメント内のOCRとチャート理解: 該当モデルバリアントに画像(動画含む)を送信し、OCRによるテキスト抽出やチャート解釈。
  • 音声対応エッジアプリケーション: 低レイテンシ環境でE2BまたはE4Bのnative audio inputを使い、音声認識・理解。
  • 長文ドキュメント分析: 256Kコンテキストウィンドウ対応モデルに長文ドキュメントやリポジトリコンテキストを入力し、持続推論を要するタスクを支援。

FAQ

  • Gemma 4はオープンソースですか? Apache 2.0 licenseでリリースされています。

  • 利用可能なモデルサイズは? Effective 2B (E2B)Effective 4B (E4B)26B Mixture of Experts (MoE)31B Denseです。

  • エージェント向けツール使用をサポートしますか? はい。function-callingstructured JSON outputnative system instructionsをネイティブサポートし、agentic workflowsを実現。

  • どのような入力を扱えますか? 全モデルがvideo and imagesをネイティブ処理。E2B and E4Bnative audio inputもサポートし、音声認識・理解に対応。

  • 処理可能なコンテキスト量は? エッジモデルは128Kコンテキストウィンドウ、大型モデルは最大256Kを提供。

代替案

  • 他のオープンウェイトLLMファミリー: ローカル実行可能なオープン モデルが主な要件の場合、Gemma 4をサイズ階層やコンテキスト長の異なる他のオープンウェイト言語モデルファミリーと比較できます。
  • プロプライエタリクラウドベースのエージェントプラットフォーム: ローカル推論ではなく、エージェント実行とツールオーケストレーションのためのマネージドサービスを好む場合、クラウドベースのサービスはインフラ負担を軽減しますが、モデルをリモートで実行する代償があります。
  • 他社マルチモーダルモデル: OCR/ビデオ/チャート+音声ニーズの場合、使用予定のモダリティ(画像/ビデオとオーディオ)を明示的にサポートするマルチモーダルモデルファミリーと比較してください。
  • モデルオーケストレーションフレームワーク(エージェントランタイム): 信頼できるツール呼び出しと構造化出力が主な目標の場合、複数の基盤モデルプロバイダ(オープン モデル含む)で動作するエージェントオーケストレーションライブラリ/フレームワークを検討してください。
Gemma 4 | UStack