Mercury 2 是什麼?
Mercury 2 是 Inception 推出的專注推理的大型語言模型 (LLM)。其核心目的是為生產 AI 工作負載提供快速推理效能—特別是在延遲會因迭代「迴圈」而累積的情境,例如 agent 步驟、檢索管線和提取任務。
不同於傳統自迴歸模型逐一從左至右生成單一 token,Mercury 2 被描述為採用擴散式方法進行即時推理。模型透過平行精煉生成輸出,同時產生多個 token,並在少數步驟內收斂。
主要特色
- 擴散式平行精煉生成:一次產生多個 token 而非循序解碼,針對互動系統實現更低的端到端延遲。
- 針對生產環境優化的速度:報告顯示在 NVIDIA Blackwell GPUs 上達 1,009 tokens/sec,設計用以縮短高負載下的感知等待時間。
- 可調式推理:可在維持預期速度–品質平衡的同時,配置推理行為。
- 128K 上下文:透過 128K 上下文視窗 支援長輸入。
- 原生工具使用:內建呼叫工具的能力,適用於推理工作流。
- 符合結構描述的 JSON 輸出:可回傳符合結構描述的輸出,適用於下游自動化。
如何使用 Mercury 2
- 將 Mercury 2 整合至 LLM 管線,適用於延遲關鍵的情境(例如 agent 迴圈、檢索增強工作流或提取任務)。
- 選擇適合品質與回應時間需求的推理設定(模型支援可調式推理)。
- 在 128K 上下文視窗內提供輸入,並在需要時要求符合結構描述的 JSON 輸出 以利可靠解析。
- 使用工具呼叫,適用於需要外部動作的工作流(例如搜尋、資料庫查詢或其他工具支援步驟),特別是在多步驟 agent 情境。
使用情境
- 程式碼與編輯工作流:自動補全、下一步編輯建議、重構,以及互動程式碼 agent,其中暫停會中斷開發者流程。
- Agentic 迴圈任務:每個工作串聯多個推論呼叫的系統(例如多步驟決策),降低單次呼叫延遲可增加可負擔步驟數。
- 即時語音與互動:語音介面與緊緻延遲預算的互動 HCI 情境,更快推理有助維持類似語音的回應性。
- 搜尋與 RAG 管線:多跳檢索與摘要工作流,在搜尋迴圈中加入推理而不超過延遲限制。
- 逐字稿清理及其他迭代轉換任務:需要快速一致轉換與精煉的應用,適用於使用者介面。
常見問題
Mercury 2 與典型 LLM 解碼有何不同?
Mercury 2 被描述為擴散式,透過平行精煉生成回應,而非循序逐 token 的自迴歸解碼。
Mercury 2 的效能特性為何?
頁面報告 >5x 更快生成 與 1,009 tokens/sec on NVIDIA Blackwell GPUs,並提供優化使用者感知回應性指引(包含高併發下的 p95 延遲)。
Mercury 2 支援何種上下文長度?
列示為 128K 上下文。
Mercury 2 可產生結構化輸出嗎?
可以。被描述為支援 schema-aligned JSON output 以產生結構化回應。
Mercury 2 支援工具使用嗎?
頁面指出具備 native tool use,用於將工具整合至推理工作流。
替代方案
- 自迴歸推理 LLM:傳統逐 token LLM 可能更容易整合,但通常循序生成,在多步驟迴圈中會增加延遲。
- 其他擴散式或非自迴歸生成方法:針對平行生成的替代模型架構可能有類似延遲目標,但實作細節與輸出行為可能不同。
- 適用互動的小型速度優化 LLM:專注低延遲的模型可能犧牲推理深度或可控性,與 Mercury 2 的推理調校設定相比。
- 最小化呼叫的 Agent/RAG 協調策略:不改變模型架構,團隊可透過重構工作流降低延遲(例如減少檢索步驟、快取或批次處理),但可能限制每個任務的推理量。
替代品
AakarDev AI
AakarDev AI 是一個強大的平台,通過無縫的向量資料庫整合簡化 AI 應用程式的開發,實現快速部署和可擴展性。
BenchSpan
BenchSpan 以並行方式執行 AI agent 基準測試,記錄分數與失敗,並以 commit 標記可重現結果,降低失敗重跑的 token 浪費。
Edgee
Edgee 是邊緣原生 AI 閘道,可在送達 LLM 供應商前先壓縮提示,透過單一 OpenAI 相容 API 將請求路由到 200+ 模型,降低 token 成本。
LobeHub
LobeHub 是一個開源平台,專為構建、部署和協作 AI 代理隊友而設計,可作為通用的 LLM Web UI。
Claude Opus 4.5
介紹全球最佳的編碼、代理、計算機使用和企業工作流程模型。
Codex Plugins
使用 Codex Plugins 將技能、應用程式整合與 MCP 伺服器打包成可重複使用的工作流程,讓 Codex 存取 Gmail、Google Drive、Slack 等工具。