Mercury 2 是什么?
Mercury 2 是 Inception 推出的专注于推理的大型语言模型 (LLM)。其核心目的是为生产 AI 工作负载提供快速推理性能——特别是在代理步骤、检索管道和提取任务等迭代“循环”中延迟累积的场景。
与其他从左到右逐个生成令牌的自回归模型不同,Mercury 2 被描述为采用基于扩散的方法进行实时推理。该模型通过并行精炼生成输出,同时产生多个令牌,并在少量步骤中收敛。
主要特性
- 基于扩散的并行精炼生成:同时产生多个令牌而非顺序解码,针对交互系统实现更低的端到端延迟。
- 针对生产的速度优化:报告在 NVIDIA Blackwell GPUs 上达到 1,009 tokens/sec,旨在负载下减少感知等待时间。
- 可调推理:允许配置推理行为,同时保持预期的速度–质量平衡。
- 128K 上下文:通过 128K 上下文窗口 支持长输入。
- 原生工具使用:内置调用工具的能力,作为推理流程的一部分。
- 模式对齐的 JSON 输出:可返回与模式对齐的结构化输出,便于下游自动化。
如何使用 Mercury 2
- 将 Mercury 2 集成到 LLM 管道中,在延迟关键的场景(如代理循环、检索增强工作流或提取任务)。
- 选择适合质量和响应时间需求的推理设置(模型支持可调推理)。
- 提供 128K 上下文窗口内的输入,并在需要时请求模式对齐的 JSON 输出 以实现可靠解析。
- 使用工具调用 处理需要外部操作的工作流(如搜索、数据库查询或其他工具支持步骤),特别是在多步代理场景中。
使用场景
- 编码和编辑工作流:自动补全、下一步编辑建议、重构以及交互式代码代理,其中暂停会打断开发者流程。
- 代理循环任务:每个任务串联多个推理调用的系统(如多步决策),降低单次调用延迟可增加可负担步骤数。
- 实时语音和交互:具有严格延迟预算的语音界面和交互 HCI 场景,更快的推理有助于保持类语音交互的响应性。
- 搜索和 RAG 管道:多跳检索和摘要工作流,在搜索循环中添加推理而不超过延迟限制。
- 转录清理和其他迭代转换任务:需要快速、一致转换和精炼的用户界面应用。
常见问题
Mercury 2 与典型 LLM 解码有何不同?
Mercury 2 被描述为基于扩散,通过并行精炼生成响应,而非顺序逐令牌的自回归解码。
Mercury 2 的性能特性有哪些?
页面报告 >5x 更快生成 和 在 NVIDIA Blackwell GPUs 上 1,009 tokens/sec,并提供优化用户感知响应性指导(包括高并发下的 p95 延迟)。
Mercury 2 支持什么上下文长度?
列出 128K 上下文。
Mercury 2 能产生结构化输出吗?
是的。它被描述为支持 模式对齐的 JSON 输出 以生成结构化响应。
Mercury 2 支持工具使用吗?
页面指出其具有 原生工具使用,用于将工具集成到推理工作流中。
替代方案
- 自回归推理 LLM:传统逐令牌 LLM 可能更易集成,但通常顺序生成,在多步循环中会增加延迟。
- 其他扩散或非自回归生成方法:针对并行生成的替代模型架构可能实现类似延迟目标,但实现细节和输出行为可能不同。
- 用于交互的小型速度优化 LLM:专注于低延迟的模型可能在推理深度或可控性上与 Mercury 2 等推理调优设置相比有所权衡。
- 最小化调用的代理/RAG 编排策略:不改变模型架构,团队可通过重构工作流减少延迟(如减少检索步骤、缓存或批处理),但可能限制每个任务的推理量。
替代品
AakarDev AI
AakarDev AI 是一个强大的平台,通过无缝的向量数据库集成简化 AI 应用程序的开发,实现快速部署和可扩展性。
BenchSpan
BenchSpan 支持 AI agent 基准并行运行,自动记录得分与失败并整理运行历史;按提交标签复现,减少失败重跑浪费的 token。
Edgee
Edgee 边缘原生 AI 网关:在请求到达 LLM 供应商前压缩提示词,提供单一 OpenAI 兼容 API,路由 200+ 模型并按 token 降本降延迟。
LobeHub
LobeHub 是一个开源平台,旨在构建、部署和协作 AI 智能体队友,它充当通用的 LLM Web UI。
Claude Opus 4.5
介绍全球最佳的编码、代理、计算机使用和企业工作流程模型。
Codex Plugins
使用 Codex Plugins 将技能、应用集成和 MCP 服务器打包成可复用工作流,扩展 Codex 访问 Gmail、Google Drive 与 Slack 等工具。