什麼是 Mercury 2?
隆重介紹 Mercury 2:全球最快的推理語言模型
什麼是 Mercury 2?
Mercury 2 是 Inception 開發的一款革命性推理大型語言模型 (LLM),專門設計用於消除困擾現代生產級 AI 應用的延遲瓶頸。與依賴緩慢、序列式自迴歸解碼(一次一個 token)的傳統模型不同,Mercury 2 採用了新穎的基於擴散 (diffusion-based) 的架構。這使得它能夠通過平行細化生成回應,僅需幾個步驟即可收斂到最終輸出。Mercury 2 的核心目的是讓生產級 AI 感覺即時,確保複雜的多步驟推理任務可以在即時延遲預算內執行,而不會犧牲品質。
這種解碼方法的根本轉變帶來了在現代 NVIDIA GPU 上超過 1,000 個 token/秒的性能,比許多領先的速度優化模型快了 5 倍以上。通過將高品質推理與高延遲分離,Mercury 2 重新定義了品質與速度的曲線,使複雜的 AI 能夠應用於對延遲敏感的使用者體驗中,在這些體驗中,每一毫秒都很重要。
關鍵特性
Mercury 2 因其架構創新和性能指標而脫穎而出:
- 基於擴散的推理 (Diffusion-Based Reasoning): 以平行細化步驟而非序列方式生成 token,從而顯著加快推理速度。
- 卓越的速度: 在 NVIDIA Blackwell GPU 上達到超過 1,009 tokens/秒,即使在高併發情況下也能確保響應能力。
- 推理級別的品質: 在保持即時延遲的同時,提供與領先的速度優化模型競爭的品質。
- 可調諧的推理 (Tunable Reasoning): 提供調整特定任務所需推理程度的靈活性。
- 大型上下文視窗: 支援 128K 上下文長度,能夠處理複雜文件和長篇互動。
- 原生工具使用 (Native Tool Use): 內建與外部系統和功能互動的能力。
- 與 Schema 對齊的 JSON 輸出: 確保生成可靠的結構化數據,這對於整合到軟體管線至關重要。
- 優化的延遲配置: 專注於在負載下改善 p95 延遲和一致的輪次間行為。
如何使用 Mercury 2
開始使用 Mercury 2 涉及將其整合到您現有的 AI 工作流程中,重點關注速度和複雜推理至關重要的應用。由於 Mercury 2 專為生產部署而設計,使用者通常通過 Inception 提供的 API 端點來存取它。
- 存取與整合: 取得 Mercury 2 服務的 API 存取憑證。將端點整合到您的應用程式後端,方式類似於整合任何其他主要的 LLM 提供者。
- 提示工程: 設計利用其推理能力的提示。對於需要結構化輸出的任務(如數據提取或程式碼生成),請利用其與 Schema 對齊的 JSON 輸出功能。
- 參數調整: 如果可用,調整如
tunable_reasoning等參數,以平衡計算成本與特定使用者互動所需的分析深度。 - 部署重點: 將 Mercury 2 部署在對延遲敏感的迴路中,例如互動式編碼助手、即時語音代理或高容量的代理工作流程,在這些流程中,累積的延遲對使用者體驗有害。
使用案例
Mercury 2 專門定位於徹底改變使用者體驗取決於即時回饋的應用程式:
- 互動式編碼與編輯: 對於使用 Zed 等工具的開發人員來說,Mercury 2 提供了即時的自動完成、下一個編輯建議和重構功能,無縫整合到開發人員的思維過程中,而不是打斷它。
- 大規模代理工作流程: 在鏈接數十個推理呼叫的複雜代理系統中(例如,自主活動優化或複雜數據處理),Mercury 2 的低單次呼叫延遲允許在總體任務預算內執行更多步驟,從而帶來更優越的最終結果。
- 即時語音與 HCI: 語音介面需要最嚴格的延遲預算。Mercury 2 可以在語音助理和對話式 AI 中實現推理級別的品質,確保文本生成與自然語音的節奏保持同步,使互動感覺像人類一樣流暢。
- 低延遲搜尋與 RAG 管線: 在執行多跳檢索、重新排序和摘要 (RAG) 時,Mercury 2 允許開發人員將複雜的推理步驟注入搜尋迴路中,而不會超過亞秒級延遲目標,從而針對專有數據提供即時的智慧答案。
常見問題
問:Mercury 2 的速度優勢如何轉化為成本節省? 答:雖然主要好處是延遲降低,但更快的推理意味著任務完成得更快,潛在地減少了每次請求所需的總計算時間,這在高容量下可能轉化為較低的營運成本。
問:Mercury 2 與標準 NVIDIA 基礎設施相容嗎? 答:是的,Mercury 2 針對現代 NVIDIA GPU 進行了優化,特別是在 NVIDIA Blackwell GPU 等最新硬體上展示出高性能,確保了企業部署的可擴展性。
問:我可以使用 Mercury 2 處理需要高事實準確性的任務,例如法律摘要嗎? 答:Mercury 2 提供與領先模型競爭的推理級別品質。對於需要高度事實依據的任務,請結合其大型 128K 上下文視窗與檢索增強生成 (RAG) 管線一起使用,以確保推理基於經過驗證的提供文件。
問:Mercury 2 的定價結構是怎樣的? 答:公佈的定價結構極具競爭力:每 100 萬輸入 token 0.25 美元,每 100 萬輸出 token 0.75 美元,反映了其對高吞吐量生產用途的關注。
問:擴散架構與標準 Transformer 解碼有何不同? 答:標準模型是序列式解碼(從左到右,一次一個 token)。Mercury 2 使用擴散在多個步驟中同時生成多個 token 並細化整個草稿,從根本上改變了速度曲線,避免了序列瓶頸。
Alternatives
紫东太初
中國科學院自動化研究所和武漢人工智慧研究院推出的新一代多模態大模型,支持多輪問答、文本創作、圖像生成等全面問答任務。
通义千问
通义千问是全球領先的AI大語言模型,具備自然語言理解、文本生成、視覺理解、音頻理解等多種能力。
PXZ AI
一個集成圖像、視頻、語音、寫作和聊天工具的全能AI平台,以增強創造力和協作。
Grok AI Assistant
Grok 是由 xAI 開發的一款免費 AI 助理,旨在優先考慮真實性和客觀性,同時提供即時資訊存取和圖像生成等進階功能。
AakarDev AI
AakarDev AI 是一個強大的平台,通過無縫的向量資料庫整合簡化 AI 應用程式的開發,實現快速部署和可擴展性。
AI Song Maker
使用我們的AI Song Maker和音樂生成器輕鬆創建免版稅歌曲。