UStackUStack
Mercury 2 icon

Mercury 2

Mercury 2 是 Inception 的擴散式推理 LLM,針對低延遲生產 AI 工作流設計,適用於迭代 agent 與檢索流程。

Mercury 2

Mercury 2 是什麼?

Mercury 2 是 Inception 推出的專注推理的大型語言模型 (LLM)。其核心目的是為生產 AI 工作負載提供快速推理效能—特別是在延遲會因迭代「迴圈」而累積的情境,例如 agent 步驟、檢索管線和提取任務。

不同於傳統自迴歸模型逐一從左至右生成單一 token,Mercury 2 被描述為採用擴散式方法進行即時推理。模型透過平行精煉生成輸出,同時產生多個 token,並在少數步驟內收斂。

主要特色

  • 擴散式平行精煉生成:一次產生多個 token 而非循序解碼,針對互動系統實現更低的端到端延遲。
  • 針對生產環境優化的速度:報告顯示在 NVIDIA Blackwell GPUs 上達 1,009 tokens/sec,設計用以縮短高負載下的感知等待時間。
  • 可調式推理:可在維持預期速度–品質平衡的同時,配置推理行為。
  • 128K 上下文:透過 128K 上下文視窗 支援長輸入。
  • 原生工具使用:內建呼叫工具的能力,適用於推理工作流。
  • 符合結構描述的 JSON 輸出:可回傳符合結構描述的輸出,適用於下游自動化。

如何使用 Mercury 2

  1. 將 Mercury 2 整合至 LLM 管線,適用於延遲關鍵的情境(例如 agent 迴圈、檢索增強工作流或提取任務)。
  2. 選擇適合品質與回應時間需求的推理設定(模型支援可調式推理)。
  3. 在 128K 上下文視窗內提供輸入,並在需要時要求符合結構描述的 JSON 輸出 以利可靠解析。
  4. 使用工具呼叫,適用於需要外部動作的工作流(例如搜尋、資料庫查詢或其他工具支援步驟),特別是在多步驟 agent 情境。

使用情境

  • 程式碼與編輯工作流:自動補全、下一步編輯建議、重構,以及互動程式碼 agent,其中暫停會中斷開發者流程。
  • Agentic 迴圈任務:每個工作串聯多個推論呼叫的系統(例如多步驟決策),降低單次呼叫延遲可增加可負擔步驟數。
  • 即時語音與互動:語音介面與緊緻延遲預算的互動 HCI 情境,更快推理有助維持類似語音的回應性。
  • 搜尋與 RAG 管線:多跳檢索與摘要工作流,在搜尋迴圈中加入推理而不超過延遲限制。
  • 逐字稿清理及其他迭代轉換任務:需要快速一致轉換與精煉的應用,適用於使用者介面。

常見問題

Mercury 2 與典型 LLM 解碼有何不同?

Mercury 2 被描述為擴散式,透過平行精煉生成回應,而非循序逐 token 的自迴歸解碼。

Mercury 2 的效能特性為何?

頁面報告 >5x 更快生成1,009 tokens/sec on NVIDIA Blackwell GPUs,並提供優化使用者感知回應性指引(包含高併發下的 p95 延遲)。

Mercury 2 支援何種上下文長度?

列示為 128K 上下文

Mercury 2 可產生結構化輸出嗎?

可以。被描述為支援 schema-aligned JSON output 以產生結構化回應。

Mercury 2 支援工具使用嗎?

頁面指出具備 native tool use,用於將工具整合至推理工作流。

替代方案

  • 自迴歸推理 LLM:傳統逐 token LLM 可能更容易整合,但通常循序生成,在多步驟迴圈中會增加延遲。
  • 其他擴散式或非自迴歸生成方法:針對平行生成的替代模型架構可能有類似延遲目標,但實作細節與輸出行為可能不同。
  • 適用互動的小型速度優化 LLM:專注低延遲的模型可能犧牲推理深度或可控性,與 Mercury 2 的推理調校設定相比。
  • 最小化呼叫的 Agent/RAG 協調策略:不改變模型架構,團隊可透過重構工作流降低延遲(例如減少檢索步驟、快取或批次處理),但可能限制每個任務的推理量。