Mercury 2
Mercury 2はInceptionの拡散ベース推論LLM。エージェント/検索/抽出の反復ワークフローでも低遅延で応答を収束。
Mercury 2とは?
Mercury 2はInceptionが提供する推論特化の大型言語モデル(LLM)です。主な目的は、本番AIワークロード向けに高速な推論性能を提供すること。特に、エージェントステップや検索パイプライン、抽出ジョブなどの反復「ループ」で遅延が累積する場面で有効です。
逐次左から右へ1トークンずつ生成する自己回帰モデルとは異なり、Mercury 2は拡散ベースのアプローチでリアルタイム推論を実現。並列精緻化により複数トークンを同時に生成し、数ステップで収束します。
主な特徴
- 拡散ベースの並列精緻化生成: 逐次デコードではなく一度に複数トークンを生成し、インタラクティブシステムのエンドツーエンド遅延を低減。
- 本番向け速度最適化: NVIDIA Blackwell GPUで1,009 tokens/secを報告。負荷時の体感待機時間を短縮。
- 調整可能推論: 速度と品質のバランスを保ちつつ、推論挙動を調整可能。
- 128Kコンテキスト: 128Kコンテキストウィンドウで長文入力に対応。
- ネイティブツール使用: 推論ワークフロー内でツール呼び出しをビルトイン。
- スキーマ準拠JSON出力: スキーマに沿った構造化出力を返し、下流自動化に活用可能。
Mercury 2の使い方
- LLMパイプラインにMercury 2を統合(遅延が重要な箇所、例: エージェントループ、検索拡張ワークフロー、抽出タスク)。
- 品質と応答時間に合った推論設定を選択(調整可能推論をサポート)。
- 128Kコンテキストウィンドウ内で入力提供、必要に応じて解析しやすいJSON出力をスキーマ準拠でリクエスト。
- ツール呼び出しを使用(検索、DB照会などの外部アクションが必要なワークフロー、特に多段階エージェント)。
ユースケース
- コーディング・編集ワークフロー: オートコンプリート、次の編集提案、リファクタリング、インタラクティブコードエージェント(開発フローを中断しないよう一時停止を最小化)。
- エージェントループタスク: ジョブあたり多数の推論呼び出しを連鎖(例: 多段階意思決定)。呼び出しごとの遅延低減で実行可能ステップ数を拡大。
- リアルタイム音声・インタラクション: 厳格な遅延制約の音声インターフェースやHCI。高速推論で会話らしい応答性を維持。
- 検索・RAGパイプライン: 検索ループに推論を追加する多段検索・要約ワークフローで遅延超過を回避。
- トランスクリプトクリーンアップなどの反復変換タスク: ユーザーインターフェース向け高速・一貫した変換と精緻化。
FAQ
Mercury 2は一般的なLLMデコードとどう違うか? 拡散ベースで並列精緻化により応答を生成。逐次1トークンごとの自己回帰デコードとは異なります。
Mercury 2の性能特性は? ページでは**>5x高速生成とNVIDIA Blackwell GPUで1,009 tokens/sec**を報告。高並行時のp95遅延含め、ユーザー体感応答性を最適化する指針あり。
Mercury 2のコンテキスト長は? 128Kコンテキストです。
Mercury 2は構造化出力を生成可能か? はい。スキーマ準拠JSON出力をサポートし、構造化応答を実現。
Mercury 2はツール使用をサポートするか? ネイティブツール使用があり、推論ワークフローへのツール統合を想定。
代替案
- 自己回帰推論LLM: 従来のトークン逐次生成LLMは統合が簡単だが、多段階ループで遅延が増大しやすい。
- 他の拡散・非自己回帰生成アプローチ: 並列生成を目指す別アーキテクチャ。遅延目標は類似も、実装詳細や出力挙動が異なる場合あり。
- インタラクティブ用途の小型高速LLM: 低遅延特化モデルは推論深度や制御性をMercury 2のような推論調整型に比べて犠牲に。
- 呼び出し最小化のエージェント/RAGオーケストレーション: モデル変更せずワークフロー再構築(例: 検索ステップ削減、キャッシュ、バッチ処理)で遅延低減。ただしタスクごとの推論量を制限。
代替品
AakarDev AI
AakarDev AIは、シームレスなベクターデータベース統合を通じてAIアプリケーションの開発を簡素化し、迅速な展開とスケーラビリティを実現する強力なプラットフォームです。
BenchSpan
BenchSpanはAIエージェントのベンチマークを並列実行し、スコアと失敗を整理した実行履歴に記録。コミット連携で再現性向上。
Edgee
Edgeeは、プロンプトを圧縮してLLMプロバイダーへ送るエッジネイティブAIゲートウェイ。OpenAI互換APIで200+モデルへルーティング。
LobeHub
LobeHubは、AIエージェントチームメイトを構築、デプロイ、共同作業するために設計されたオープンソースプラットフォームであり、ユニバーサルなLLM Web UIとして機能します。
Claude Opus 4.5
コーディング、エージェント、コンピュータ使用、企業ワークフローのための世界最高のモデルを紹介します。
Codex Plugins
Codex Pluginsでスキル、アプリ連携、MCPサーバーを再利用可能なワークフローにまとめ、Gmail・Google Drive・Slack等のツールにアクセス。