Mercury 2

Mercury 2とは？

Mercury 2はInceptionが提供する推論特化の大型言語モデル（LLM）です。主な目的は、本番AIワークロード向けに高速な推論性能を提供すること。特に、エージェントステップや検索パイプライン、抽出ジョブなどの反復「ループ」で遅延が累積する場面で有効です。

逐次左から右へ1トークンずつ生成する自己回帰モデルとは異なり、Mercury 2は拡散ベースのアプローチでリアルタイム推論を実現。並列精緻化により複数トークンを同時に生成し、数ステップで収束します。

コーディング・編集ワークフロー: オートコンプリート、次の編集提案、リファクタリング、インタラクティブコードエージェント（開発フローを中断しないよう一時停止を最小化）。
エージェントループタスク: ジョブあたり多数の推論呼び出しを連鎖（例: 多段階意思決定）。呼び出しごとの遅延低減で実行可能ステップ数を拡大。
リアルタイム音声・インタラクション: 厳格な遅延制約の音声インターフェースやHCI。高速推論で会話らしい応答性を維持。
検索・RAGパイプライン: 検索ループに推論を追加する多段検索・要約ワークフローで遅延超過を回避。
トランスクリプトクリーンアップなどの反復変換タスク: ユーザーインターフェース向け高速・一貫した変換と精緻化。

Mercury 2は一般的なLLMデコードとどう違うか？ 拡散ベースで並列精緻化により応答を生成。逐次1トークンごとの自己回帰デコードとは異なります。

Mercury 2の性能特性は？ ページでは**>5x高速生成とNVIDIA Blackwell GPUで1,009 tokens/sec**を報告。高並行時のp95遅延含め、ユーザー体感応答性を最適化する指針あり。

Mercury 2のコンテキスト長は？ 128Kコンテキストです。

Mercury 2は構造化出力を生成可能か？ はい。スキーマ準拠JSON出力をサポートし、構造化応答を実現。

Mercury 2はツール使用をサポートするか？ ネイティブツール使用があり、推論ワークフローへのツール統合を想定。

自己回帰推論LLM: 従来のトークン逐次生成LLMは統合が簡単だが、多段階ループで遅延が増大しやすい。
他の拡散・非自己回帰生成アプローチ: 並列生成を目指す別アーキテクチャ。遅延目標は類似も、実装詳細や出力挙動が異なる場合あり。
インタラクティブ用途の小型高速LLM: 低遅延特化モデルは推論深度や制御性をMercury 2のような推論調整型に比べて犠牲に。
呼び出し最小化のエージェント/RAGオーケストレーション: モデル変更せずワークフロー再構築（例: 検索ステップ削減、キャッシュ、バッチ処理）で遅延低減。ただしタスクごとの推論量を制限。