UStackUStack
Mercury 2 icon

Mercury 2

Mercury 2 是 Inception 的扩散式推理 LLM,面向低延迟生产 AI 流程,适合多轮 Agent 与检索等迭代环节。

Mercury 2

Mercury 2 是什么?

Mercury 2 是 Inception 推出的专注于推理的大型语言模型 (LLM)。其核心目的是为生产 AI 工作负载提供快速推理性能——特别是在代理步骤、检索管道和提取任务等迭代“循环”中延迟累积的场景。

与其他从左到右逐个生成令牌的自回归模型不同,Mercury 2 被描述为采用基于扩散的方法进行实时推理。该模型通过并行精炼生成输出,同时产生多个令牌,并在少量步骤中收敛。

主要特性

  • 基于扩散的并行精炼生成:同时产生多个令牌而非顺序解码,针对交互系统实现更低的端到端延迟。
  • 针对生产的速度优化:报告在 NVIDIA Blackwell GPUs 上达到 1,009 tokens/sec,旨在负载下减少感知等待时间。
  • 可调推理:允许配置推理行为,同时保持预期的速度–质量平衡。
  • 128K 上下文:通过 128K 上下文窗口 支持长输入。
  • 原生工具使用:内置调用工具的能力,作为推理流程的一部分。
  • 模式对齐的 JSON 输出:可返回与模式对齐的结构化输出,便于下游自动化。

如何使用 Mercury 2

  1. 将 Mercury 2 集成到 LLM 管道中,在延迟关键的场景(如代理循环、检索增强工作流或提取任务)。
  2. 选择适合质量和响应时间需求的推理设置(模型支持可调推理)。
  3. 提供 128K 上下文窗口内的输入,并在需要时请求模式对齐的 JSON 输出 以实现可靠解析。
  4. 使用工具调用 处理需要外部操作的工作流(如搜索、数据库查询或其他工具支持步骤),特别是在多步代理场景中。

使用场景

  • 编码和编辑工作流:自动补全、下一步编辑建议、重构以及交互式代码代理,其中暂停会打断开发者流程。
  • 代理循环任务:每个任务串联多个推理调用的系统(如多步决策),降低单次调用延迟可增加可负担步骤数。
  • 实时语音和交互:具有严格延迟预算的语音界面和交互 HCI 场景,更快的推理有助于保持类语音交互的响应性。
  • 搜索和 RAG 管道:多跳检索和摘要工作流,在搜索循环中添加推理而不超过延迟限制。
  • 转录清理和其他迭代转换任务:需要快速、一致转换和精炼的用户界面应用。

常见问题

Mercury 2 与典型 LLM 解码有何不同?
Mercury 2 被描述为基于扩散,通过并行精炼生成响应,而非顺序逐令牌的自回归解码。

Mercury 2 的性能特性有哪些?
页面报告 >5x 更快生成在 NVIDIA Blackwell GPUs 上 1,009 tokens/sec,并提供优化用户感知响应性指导(包括高并发下的 p95 延迟)。

Mercury 2 支持什么上下文长度?
列出 128K 上下文

Mercury 2 能产生结构化输出吗?
是的。它被描述为支持 模式对齐的 JSON 输出 以生成结构化响应。

Mercury 2 支持工具使用吗?
页面指出其具有 原生工具使用,用于将工具集成到推理工作流中。

替代方案

  • 自回归推理 LLM:传统逐令牌 LLM 可能更易集成,但通常顺序生成,在多步循环中会增加延迟。
  • 其他扩散或非自回归生成方法:针对并行生成的替代模型架构可能实现类似延迟目标,但实现细节和输出行为可能不同。
  • 用于交互的小型速度优化 LLM:专注于低延迟的模型可能在推理深度或可控性上与 Mercury 2 等推理调优设置相比有所权衡。
  • 最小化调用的代理/RAG 编排策略:不改变模型架构,团队可通过重构工作流减少延迟(如减少检索步骤、缓存或批处理),但可能限制每个任务的推理量。