UStackUStack
Gemma 4 12B icon

Gemma 4 12B

Gemma 4 12Bは、Google DeepMindのマルチモーダルAIモデル。ノートPCでのローカル推論に対応し、視覚・音声・テキストを統合。少ないメモリで高度な推論を求める開発者向け。

Gemma 4 12B

Gemma 4 12Bとは?

Gemma 4 12Bは、Google DeepMindのマルチモーダルAIモデルで、ノートPC上でローカルに動作しながら、視覚・音声・テキスト入力を単一アーキテクチャで扱えるよう設計されています。小型でエッジ重視のGemma 4 E4Bと、より大規模な26BのMixture of Expertsモデルの中間に位置し、少ないメモリ使用量で高度な推論を実現することに重点を置いています。

このモデルはエンコーダー不要の設計を採用しており、視覚・音声入力は個別のマルチモーダルエンコーダーを通るのではなく、直接言語モデル本体に流れ込みます。Googleによると、このアプローチは遅延とメモリ使用量の削減を意図しており、エージェント型ワークフローや、16GBのVRAMまたはユニファイドメモリを備えたコンシューマー向けハードウェアでのローカル推論を支援します。Gemma 4 12BはApache 2.0ライセンスで公開されており、ローカルツールやクラウド基盤を使ってマルチモーダルアプリケーションを構築・展開したい開発者向けです。

主な機能

  • 統合マルチモーダルアーキテクチャ: 視覚と音声を個別のマルチモーダルエンコーダーなしでLLM本体に直接処理させ、パイプラインを簡素化してオーバーヘッドを削減します。
  • ネイティブ音声入力対応: Gemma 4 12Bは、ネイティブ音声入力を備えた初の中型Gemma 4モデルとされ、音声+テキストのワークフローに適しています。
  • ローカルのノートPC展開: Googleによると、16GBのVRAMまたはユニファイドメモリを搭載したノートPCでも十分動作するサイズで、オフラインやオンデバイスでの試行が広がります。
  • 高度な推論性能: このモデルは、より大きい26B MoEモデルに迫るベンチマーク性能に達するとされ、段階的な推論やエージェント型ワークフローを支援します。
  • Multi-Token Prediction drafters: 内蔵MTP draftersにより、生成時の遅延を低減することを狙っています。
  • オープン公開とエコシステム対応: 重みはHugging FaceとKaggleで利用でき、Hugging Face Transformers、llama.cpp、MLX、SGLang、vLLM、Unslothなどのツールでサポートされています。

Gemma 4 12Bの使い方

開発者は、LM Studio、Ollama、Google AI Edge Gallery App、Google AI Edge Eloquent app、LiteRT-LM CLIなどのローカルアプリやツールでまず試すことができます。Hugging FaceまたはKaggleから事前学習済みおよびinstruction-tunedのチェックポイントをダウンロードし、開発者向けドキュメントとクイックスタートノートブックを確認することもできます。

そこから、ワークフローに応じて、モデルをローカル推論パイプラインに統合したり、効率化のためにファインチューニングしたりできます。本番展開向けには、GoogleはGemini Enterprise Agent Platform Model Garden、Cloud Run、GKEなどのクラウドオプションも案内しています。

ユースケース

  • ローカルのマルチモーダルアシスタント: データをリモートサービスへ送らずに、ノートPC上で推論を行いながらテキスト、画像、音声を扱えるオンデバイスアシスタントを構築します。
  • エージェント型ワークフロー: 入力をもとに推論し、アクションを計画し、ツールのような振る舞いを行う多段階エージェントを、ローカルまたはハイブリッド構成で作成します。
  • 音声対応アプリケーション: 音声をテキストとともに解釈する必要があるアプリ、たとえばメモ作成、文字起こし支援ワークフロー、マルチモーダルプロンプトなどを試作します。
  • 開発者の実験: より大規模な展開に移る前に、一般的なローカルツールを使ってモデル挙動、プロンプト設計、推論パイプラインを検証します。
  • 本番展開パイプライン: ローカル開発から管理型エンドポイントやスケーラブルな基盤へ移行する際に、クラウドベースの配信環境でモデルを使用します。

FAQ

Gemma 4 12Bには、視覚用と音声用の個別エンコーダーが必要ですか?
いいえ。Googleは、視覚と音声の入力が直接言語モデル本体に流れ込むエンコーダー不要のマルチモーダルモデルだと説明しています。

Gemma 4 12BはノートPCで動作しますか?
はい。Googleによると、16GBのVRAMまたはユニファイドメモリを備えたハードウェア上でローカルに動作できる十分小さなサイズです。

このモデルは開発者に公開されていますか?
はい。Apache 2.0ライセンスで公開されており、重みはHugging FaceとKaggleから利用できます。

どのツールで使えますか?
記事では、LM Studio、Ollama、Google AI Edge Gallery App、LiteRT-LM CLI、Hugging Face Transformers、llama.cpp、MLX、SGLang、vLLM、Unslothなどのローカルおよび開発ツールが挙げられています。

ローカル用途だけですか?
いいえ。Googleは、Gemini Enterprise Agent Platform Model Garden、Cloud Run、GKEを含むGoogle Cloud上での展開オプションも説明しています。

代替案

  • より小型のエッジ向けマルチモーダルモデル: こちらは非常に制約の厳しいデバイス向けに適しており、効率性と引き換えに推論の深さがやや低くなる場合があります。
  • より大規模なマルチモーダルモデル: パラメータ数が多いモデルや Mixture of Experts アーキテクチャは、より高い能力を提供する可能性がありますが、通常はより多くのメモリとインフラが必要です。
  • 従来型のエンコーダベースのマルチモーダルモデル: 画像と音声に別々のエンコーダを使用するため、アーキテクチャの理解はしやすい一方、遅延やメモリ負荷が増えることがよくあります。
  • クラウド専用のマルチモーダル API: チームがローカル推論よりもマネージドサービスを好む場合に有用ですが、Gemma 4 12Bで説明したオンデバイスのワークフローは利用できません。