UStackUStack
Mercury 2 icon

Mercury 2

Mercury 2はInceptionの拡散ベース推論LLM。エージェント/検索/抽出の反復ワークフローでも低遅延で応答を収束。

Mercury 2

Mercury 2とは?

Mercury 2はInceptionが提供する推論特化の大型言語モデル(LLM)です。主な目的は、本番AIワークロード向けに高速な推論性能を提供すること。特に、エージェントステップや検索パイプライン、抽出ジョブなどの反復「ループ」で遅延が累積する場面で有効です。

逐次左から右へ1トークンずつ生成する自己回帰モデルとは異なり、Mercury 2は拡散ベースのアプローチでリアルタイム推論を実現。並列精緻化により複数トークンを同時に生成し、数ステップで収束します。

主な特徴

  • 拡散ベースの並列精緻化生成: 逐次デコードではなく一度に複数トークンを生成し、インタラクティブシステムのエンドツーエンド遅延を低減。
  • 本番向け速度最適化: NVIDIA Blackwell GPUで1,009 tokens/secを報告。負荷時の体感待機時間を短縮。
  • 調整可能推論: 速度と品質のバランスを保ちつつ、推論挙動を調整可能。
  • 128Kコンテキスト: 128Kコンテキストウィンドウで長文入力に対応。
  • ネイティブツール使用: 推論ワークフロー内でツール呼び出しをビルトイン。
  • スキーマ準拠JSON出力: スキーマに沿った構造化出力を返し、下流自動化に活用可能。

Mercury 2の使い方

  1. LLMパイプラインにMercury 2を統合(遅延が重要な箇所、例: エージェントループ、検索拡張ワークフロー、抽出タスク)。
  2. 品質と応答時間に合った推論設定を選択(調整可能推論をサポート)。
  3. 128Kコンテキストウィンドウ内で入力提供、必要に応じて解析しやすいJSON出力をスキーマ準拠でリクエスト。
  4. ツール呼び出しを使用(検索、DB照会などの外部アクションが必要なワークフロー、特に多段階エージェント)。

ユースケース

  • コーディング・編集ワークフロー: オートコンプリート、次の編集提案、リファクタリング、インタラクティブコードエージェント(開発フローを中断しないよう一時停止を最小化)。
  • エージェントループタスク: ジョブあたり多数の推論呼び出しを連鎖(例: 多段階意思決定)。呼び出しごとの遅延低減で実行可能ステップ数を拡大。
  • リアルタイム音声・インタラクション: 厳格な遅延制約の音声インターフェースやHCI。高速推論で会話らしい応答性を維持。
  • 検索・RAGパイプライン: 検索ループに推論を追加する多段検索・要約ワークフローで遅延超過を回避。
  • トランスクリプトクリーンアップなどの反復変換タスク: ユーザーインターフェース向け高速・一貫した変換と精緻化。

FAQ

Mercury 2は一般的なLLMデコードとどう違うか? 拡散ベースで並列精緻化により応答を生成。逐次1トークンごとの自己回帰デコードとは異なります。

Mercury 2の性能特性は? ページでは**>5x高速生成NVIDIA Blackwell GPUで1,009 tokens/sec**を報告。高並行時のp95遅延含め、ユーザー体感応答性を最適化する指針あり。

Mercury 2のコンテキスト長は? 128Kコンテキストです。

Mercury 2は構造化出力を生成可能か? はい。スキーマ準拠JSON出力をサポートし、構造化応答を実現。

Mercury 2はツール使用をサポートするか? ネイティブツール使用があり、推論ワークフローへのツール統合を想定。

代替案

  • 自己回帰推論LLM: 従来のトークン逐次生成LLMは統合が簡単だが、多段階ループで遅延が増大しやすい。
  • 他の拡散・非自己回帰生成アプローチ: 並列生成を目指す別アーキテクチャ。遅延目標は類似も、実装詳細や出力挙動が異なる場合あり。
  • インタラクティブ用途の小型高速LLM: 低遅延特化モデルは推論深度や制御性をMercury 2のような推論調整型に比べて犠牲に。
  • 呼び出し最小化のエージェント/RAGオーケストレーション: モデル変更せずワークフロー再構築(例: 検索ステップ削減、キャッシュ、バッチ処理)で遅延低減。ただしタスクごとの推論量を制限。