UStackUStack
Mercury 2 favicon

Mercury 2

Mercury 2 是全球速度最快的推理语言模型,它利用基于扩散的架构,以即时生产级 AI 的速度提供推理级别的质量。

Mercury 2

什么是 Mercury 2?

介绍 Mercury 2:全球最快的推理语言模型

什么是 Mercury 2?

Mercury 2 是 Inception 开发的一款革命性的推理大型语言模型(LLM),专门设计用于消除困扰现代生产级 AI 应用的延迟瓶颈。与依赖缓慢、顺序自回归解码(一次一个 token)的传统模型不同,Mercury 2 采用了新颖的基于扩散的架构。这使得它能够通过并行细化生成响应,仅用几个步骤即可收敛到最终输出。Mercury 2 的核心目的是让生产级 AI 感觉即时,确保复杂的多步骤推理任务能够在实时延迟预算内执行,而不会牺牲质量。

解码方法的这种根本性转变带来了性能上的飞跃,在现代 NVIDIA GPU 上实现了超过每秒 1,000 个 token 的速度,比许多领先的优化速度模型快 5 倍以上。通过将高质量推理与高延迟解耦,Mercury 2 重新定义了质量-速度曲线,使复杂的 AI 能够应用于对延迟敏感的用户体验中,在这些体验中,每一毫秒都至关重要。

关键特性

Mercury 2 因其架构创新和性能指标而脱颖而出:

  • 基于扩散的推理: 以并行细化步骤而非顺序生成 token,从而实现速度极快的推理。
  • 卓越的速度: 在 NVIDIA Blackwell GPU 上实现超过 1,009 tokens/秒,确保在高并发下仍能保持响应能力。
  • 推理级质量: 在保持实时延迟的同时,提供与领先的优化速度模型相当的质量。
  • 可调谐推理: 提供调整特定任务所需推理程度的灵活性。
  • 大上下文窗口: 支持 128K 上下文长度,可处理复杂的文档和长篇交互。
  • 原生工具使用: 内置与外部系统和函数交互的能力。
  • Schema 对齐的 JSON 输出: 确保对集成到软件管道至关重要的可靠、结构化数据生成。
  • 优化的延迟特性: 专注于在负载下改善 p95 延迟和一致的轮次间行为。

如何使用 Mercury 2

开始使用 Mercury 2 需要将其集成到您现有的 AI 工作流程中,重点关注速度和复杂推理至关重要的应用。由于 Mercury 2 专为生产部署而设计,用户通常通过 Inception 提供的 API 端点访问它。

  1. 访问和集成: 获取 Mercury 2 服务的 API 访问凭证。将端点集成到您的应用程序后端,类似于集成任何其他主要的 LLM 提供商。
  2. 提示工程: 设计利用其推理能力的提示。对于需要结构化输出(如数据提取或代码生成)的任务,请利用 Schema 对齐的 JSON 输出功能。
  3. 参数调整: 如果可用,调整如 tunable_reasoning 等参数,以平衡计算成本与特定用户交互所需的分析深度。
  4. 部署重点: 将 Mercury 2 部署在对延迟敏感的循环中,例如交互式编码助手、实时语音代理或高容量的智能体工作流程,在这些流程中,累积延迟对用户体验有害。

用例

Mercury 2 定位为彻底改变用户体验由即时反馈决定的应用程序:

  1. 交互式编码和编辑: 对于使用 Zed 等工具的开发人员,Mercury 2 提供的自动完成、下一个编辑建议和重构功能感觉是即时的,无缝地融入开发者的思维过程而不是打断它。
  2. 大规模智能体工作流程: 在需要链接数十次推理调用的复杂智能体系统中(例如,自主活动优化或复杂数据处理),Mercury 2 的低单次调用延迟允许在整体任务预算内执行更多步骤,从而获得更优异的最终结果。
  3. 实时语音和 HCI: 语音界面要求最严格的延迟预算。Mercury 2 能够在语音助手和对话式 AI 中实现推理级别的质量,确保文本生成与自然语音的节奏保持同步,使交互感觉流畅且像人一样。
  4. 低延迟搜索和 RAG 管道: 在执行多跳检索、重新排序和摘要(RAG)时,Mercury 2 允许开发人员在不超出亚秒级延迟目标的情况下,将复杂的推理步骤注入搜索循环中,从而就专有数据提供即时、智能的答案。

常见问题解答

问:Mercury 2 的速度优势如何转化为成本节约? 答:虽然主要优势是延迟降低,但更快的推理意味着任务完成得更快,可能减少每次请求所需的总计算时间,这在高流量时可能转化为更低的运营成本。

问:Mercury 2 是否与标准的 NVIDIA 基础设施兼容? 答:是的,Mercury 2 针对现代 NVIDIA GPU 进行了优化,特别是在 NVIDIA Blackwell GPU 等最新硬件上展示出高性能,确保了企业部署的可扩展性。

问:我可以使用 Mercury 2 处理需要高事实准确性的任务,例如法律摘要吗? 答:Mercury 2 提供与领先模型相当的推理级质量。对于需要高事实依据的任务,请结合其大型 128K 上下文窗口与检索增强生成(RAG)管道一起使用,以确保推理基于经过验证的、提供的文档。

问:Mercury 2 的定价结构是怎样的? 答:已公布的定价结构极具竞争力:每 100 万输入 token 0.25 美元,每 100 万输出 token 0.75 美元,反映了其对高吞吐量生产用途的关注。

问:扩散架构与标准 Transformer 解码有何不同? 答:标准模型按顺序解码(从左到右,一次一个 token)。Mercury 2 使用扩散技术同时生成多个 token,并在几个步骤中精炼整个草稿,从根本上改变了避免顺序瓶颈的速度曲线。

Mercury 2 | UStack