Mercury 2

Mercury 2 是什麼？

Mercury 2 是 Inception 推出的專注推理的大型語言模型 (LLM)。其核心目的是為生產 AI 工作負載提供快速推理效能—特別是在延遲會因迭代「迴圈」而累積的情境，例如 agent 步驟、檢索管線和提取任務。

不同於傳統自迴歸模型逐一從左至右生成單一 token，Mercury 2 被描述為採用擴散式方法進行即時推理。模型透過平行精煉生成輸出，同時產生多個 token，並在少數步驟內收斂。

擴散式平行精煉生成：一次產生多個 token 而非循序解碼，針對互動系統實現更低的端到端延遲。
針對生產環境優化的速度：報告顯示在 NVIDIA Blackwell GPUs 上達 1,009 tokens/sec，設計用以縮短高負載下的感知等待時間。
可調式推理：可在維持預期速度–品質平衡的同時，配置推理行為。
128K 上下文：透過 128K 上下文視窗 支援長輸入。
原生工具使用：內建呼叫工具的能力，適用於推理工作流。
符合結構描述的 JSON 輸出：可回傳符合結構描述的輸出，適用於下游自動化。

Mercury 2 與典型 LLM 解碼有何不同？

Mercury 2 被描述為擴散式，透過平行精煉生成回應，而非循序逐 token 的自迴歸解碼。

Mercury 2 的效能特性為何？

頁面報告 >5x 更快生成 與 1,009 tokens/sec on NVIDIA Blackwell GPUs，並提供優化使用者感知回應性指引（包含高併發下的 p95 延遲）。

Mercury 2 支援何種上下文長度？

列示為 128K 上下文。

Mercury 2 可產生結構化輸出嗎？

可以。被描述為支援 schema-aligned JSON output 以產生結構化回應。

Mercury 2 支援工具使用嗎？

頁面指出具備 native tool use，用於將工具整合至推理工作流。

自迴歸推理 LLM：傳統逐 token LLM 可能更容易整合，但通常循序生成，在多步驟迴圈中會增加延遲。
其他擴散式或非自迴歸生成方法：針對平行生成的替代模型架構可能有類似延遲目標，但實作細節與輸出行為可能不同。
適用互動的小型速度優化 LLM：專注低延遲的模型可能犧牲推理深度或可控性，與 Mercury 2 的推理調校設定相比。
最小化呼叫的 Agent/RAG 協調策略：不改變模型架構，團隊可透過重構工作流降低延遲（例如減少檢索步驟、快取或批次處理），但可能限制每個任務的推理量。