UStackUStack
Mercury 2 favicon

Mercury 2

Mercury 2は、拡散ベースのアーキテクチャを活用し、瞬時のプロダクションAI速度で推論グレードの品質を提供する、世界最速の推論言語モデルです。

Mercury 2

Mercury 2とは?

Mercury 2のご紹介:世界最速の推論言語モデル

Mercury 2とは?

Mercury 2は、Inceptionによって開発された革新的な推論大規模言語モデル(LLM)であり、最新のプロダクションAIアプリケーションを悩ませるレイテンシのボトルネックを解消するために特別に設計されています。従来のモデルが低速な逐次自己回帰デコーディング(一度に1トークン)に依存しているのに対し、Mercury 2は新しい拡散ベースのアーキテクチャを採用しています。これにより、並列的な洗練を通じて応答を生成し、わずか数ステップで最終出力に収束させることができます。Mercury 2の核となる目的は、プロダクションAIを瞬時に感じられるようにすることであり、複雑な多段階の推論タスクが、品質を犠牲にすることなくリアルタイムのレイテンシ予算内で実行されることを保証します。

このデコーディング手法の根本的な変化により、最新のNVIDIA GPU上で毎秒1,000トークンを超えるパフォーマンスが実現され、多くの主要な速度最適化モデルよりも大幅に高速(5倍以上)になります。高品質な推論と高いレイテンシを切り離すことで、Mercury 2は品質と速度の曲線(クオリティ・スピード・カーブ)を再定義し、ミリ秒単位が重要となるレイテンシに敏感なユーザーエクスペリエンスに対して、洗練されたAIを手の届くものにします。

主な特徴

Mercury 2は、そのアーキテクチャの革新性とパフォーマンス指標により際立っています。

  • 拡散ベースの推論: 逐次的なのではなく、並列的な洗練ステップでトークンを生成するため、推論速度が劇的に向上します。
  • 卓越した速度: NVIDIA Blackwell GPU上で毎秒1,009トークンを達成し、高い同時実行下でも応答性を保証します。
  • 推論グレードの品質: リアルタイムのレイテンシを維持しながら、主要な速度最適化モデルに匹敵する品質を提供します。
  • 調整可能な推論: 特定のタスクに必要な推論の深さに応じて柔軟に調整できます。
  • 大規模コンテキストウィンドウ: 128Kコンテキスト長をサポートし、複雑なドキュメント処理や長文の対話を可能にします。
  • ネイティブツール利用: 外部システムや関数と対話するための組み込み機能。
  • スキーマ整合型JSON出力: ソフトウェアパイプラインへの統合に不可欠な、信頼性の高い構造化データ生成を保証します。
  • 最適化されたレイテンシプロファイル: 負荷下でのp95レイテンシと一貫したターン・トゥ・ターン動作の改善に焦点を当てています。

Mercury 2の使用方法

Mercury 2の利用開始には、既存のAIワークフローへの統合が含まれ、特に速度と複雑な推論が重要となるアプリケーションに焦点を当てます。Mercury 2は本番環境へのデプロイメント向けに設計されているため、ユーザーは通常、Inceptionが提供するAPIエンドポイント経由でアクセスします。

  1. アクセスと統合: Mercury 2サービスのAPIアクセス認証情報を取得します。他の主要なLLMプロバイダーを統合するのと同様に、アプリケーションのバックエンドにエンドポイントを統合します。
  2. プロンプトエンジニアリング: 推論能力を活用するプロンプトを作成します。構造化された出力(データ抽出やコード生成など)が必要なタスクには、スキーマ整合型JSON出力機能を利用します。
  3. パラメーター調整: 特定のユーザーインタラクションに必要な分析の深さと計算コストのバランスを取るために、利用可能な場合はtunable_reasoningなどのパラメーターを調整します。
  4. デプロイメントの焦点: ユーザーエクスペリエンスに悪影響を与える累積レイテンシを避けるため、Mercury 2をレイテンシに敏感なループ(インタラクティブなコーディングアシスタント、リアルタイム音声エージェント、または高負荷のエージェントワークフローなど)にデプロイします。

ユースケース

Mercury 2は、ユーザーエクスペリエンスが瞬時のフィードバックによって決定されるアプリケーションに革命をもたらすように特化されています。

  1. インタラクティブなコーディングと編集: Zedのようなツールを使用する開発者にとって、Mercury 2は、開発者の思考プロセスを中断するのではなく、シームレスに統合される瞬時のオートコンプリート、次の編集の提案、リファクタリング機能を提供します。
  2. 大規模なエージェントワークフロー: 多数の推論呼び出しを連鎖させる複雑なエージェントシステム(例:自律的なキャンペーン最適化や複雑なデータ処理)では、Mercury 2の低いコールごとのレイテンシにより、全体的なタスク予算内でより多くのステップを実行でき、最終結果の品質が向上します。
  3. リアルタイム音声およびHCI: 音声インターフェースは最も厳しいレイテンシ予算を要求します。Mercury 2は、音声アシスタントや会話型AIにおいて推論レベルの品質を可能にし、テキスト生成が自然な発話のテンポに追いつくことを保証し、対話を人間らしく流動的に感じさせます。
  4. 低レイテンシ検索およびRAGパイプライン: マルチホップ検索、再ランキング、要約(RAG)を実行する際、Mercury 2を使用すると、開発者は洗練された推論ステップを検索ループに挿入してもサブセカンドのレイテンシ目標を超えることなく、独自のデータに基づいて即座にインテリジェントな回答を提供できます。

FAQ

Q: Mercury 2の速度の優位性は、コスト削減にどのように結びつきますか? A: 主な利点はレイテンシの削減ですが、推論が速くなることでタスクの完了が速くなり、リクエストごとの合計コンピューティング時間が短縮される可能性があり、特に大量の場合には運用コストの削減につながります。

Q: Mercury 2は標準的なNVIDIAインフラストラクチャと互換性がありますか? A: はい、Mercury 2は最新のNVIDIA GPU、特にNVIDIA Blackwell GPUで高いパフォーマンスを発揮するように最適化されており、エンタープライズ展開のスケーラビリティを保証します。

Q: 法律文書の要約など、高い事実的正確性が求められるタスクにMercury 2を使用できますか? A: Mercury 2は、主要なモデルに匹敵する推論グレードの品質を提供します。高い事実的根拠が必要なタスクの場合、検索拡張生成(RAG)パイプラインと連携してその大規模な128Kコンテキストウィンドウを活用し、推論が検証済みの提供されたドキュメントに基づいていることを保証します。

Q: Mercury 2の価格設定構造はどうなっていますか? A: 公表されている価格設定構造は非常に競争力があります。高スループットのプロダクション利用に焦点を当て、入力トークン100万件あたり0.25ドル、出力トークン100万件あたり0.75ドルです。

Q: 拡散アーキテクチャは標準的なトランスフォーマーデコーディングとどのように異なりますか? A: 標準モデルは逐次的に(左から右へ、一度に1トークン)デコードします。Mercury 2は拡散を使用して複数のトークンを同時に生成し、数ステップにわたってドラフト全体を洗練させることで、逐次的なボトルネックを回避し、速度曲線を根本的に変えます。

Mercury 2 | UStack