介绍 Mercury 2：全球最快的推理语言模型

什么是 Mercury 2？

Mercury 2 是 Inception 开发的一款革命性的推理大型语言模型（LLM），专门设计用于消除困扰现代生产级 AI 应用的延迟瓶颈。与依赖缓慢、顺序自回归解码（一次一个 token）的传统模型不同，Mercury 2 采用了新颖的基于扩散的架构。这使得它能够通过并行细化生成响应，仅用几个步骤即可收敛到最终输出。Mercury 2 的核心目的是让生产级 AI 感觉即时，确保复杂的多步骤推理任务能够在实时延迟预算内执行，而不会牺牲质量。

解码方法的这种根本性转变带来了性能上的飞跃，在现代 NVIDIA GPU 上实现了超过每秒 1,000 个 token 的速度，比许多领先的优化速度模型快 5 倍以上。通过将高质量推理与高延迟解耦，Mercury 2 重新定义了质量-速度曲线，使复杂的 AI 能够应用于对延迟敏感的用户体验中，在这些体验中，每一毫秒都至关重要。

关键特性

Mercury 2 因其架构创新和性能指标而脱颖而出：

基于扩散的推理： 以并行细化步骤而非顺序生成 token，从而实现速度极快的推理。
卓越的速度： 在 NVIDIA Blackwell GPU 上实现超过 1,009 tokens/秒，确保在高并发下仍能保持响应能力。
推理级质量： 在保持实时延迟的同时，提供与领先的优化速度模型相当的质量。
可调谐推理： 提供调整特定任务所需推理程度的灵活性。
大上下文窗口： 支持 128K 上下文长度，可处理复杂的文档和长篇交互。
原生工具使用： 内置与外部系统和函数交互的能力。
Schema 对齐的 JSON 输出： 确保对集成到软件管道至关重要的可靠、结构化数据生成。
优化的延迟特性： 专注于在负载下改善 p95 延迟和一致的轮次间行为。

如何使用 Mercury 2

开始使用 Mercury 2 需要将其集成到您现有的 AI 工作流程中，重点关注速度和复杂推理至关重要的应用。由于 Mercury 2 专为生产部署而设计，用户通常通过 Inception 提供的 API 端点访问它。

访问和集成： 获取 Mercury 2 服务的 API 访问凭证。将端点集成到您的应用程序后端，类似于集成任何其他主要的 LLM 提供商。
提示工程： 设计利用其推理能力的提示。对于需要结构化输出（如数据提取或代码生成）的任务，请利用 Schema 对齐的 JSON 输出功能。
参数调整： 如果可用，调整如 tunable_reasoning 等参数，以平衡计算成本与特定用户交互所需的分析深度。
部署重点： 将 Mercury 2 部署在对延迟敏感的循环中，例如交互式编码助手、实时语音代理或高容量的智能体工作流程，在这些流程中，累积延迟对用户体验有害。

用例

Mercury 2 定位为彻底改变用户体验由即时反馈决定的应用程序：

交互式编码和编辑： 对于使用 Zed 等工具的开发人员，Mercury 2 提供的自动完成、下一个编辑建议和重构功能感觉是即时的，无缝地融入开发者的思维过程而不是打断它。
大规模智能体工作流程： 在需要链接数十次推理调用的复杂智能体系统中（例如，自主活动优化或复杂数据处理），Mercury 2 的低单次调用延迟允许在整体任务预算内执行更多步骤，从而获得更优异的最终结果。
实时语音和 HCI： 语音界面要求最严格的延迟预算。Mercury 2 能够在语音助手和对话式 AI 中实现推理级别的质量，确保文本生成与自然语音的节奏保持同步，使交互感觉流畅且像人一样。
低延迟搜索和 RAG 管道： 在执行多跳检索、重新排序和摘要（RAG）时，Mercury 2 允许开发人员在不超出亚秒级延迟目标的情况下，将复杂的推理步骤注入搜索循环中，从而就专有数据提供即时、智能的答案。

常见问题解答

问：Mercury 2 的速度优势如何转化为成本节约？ 答：虽然主要优势是延迟降低，但更快的推理意味着任务完成得更快，可能减少每次请求所需的总计算时间，这在高流量时可能转化为更低的运营成本。

问：Mercury 2 是否与标准的 NVIDIA 基础设施兼容？ 答：是的，Mercury 2 针对现代 NVIDIA GPU 进行了优化，特别是在 NVIDIA Blackwell GPU 等最新硬件上展示出高性能，确保了企业部署的可扩展性。

问：我可以使用 Mercury 2 处理需要高事实准确性的任务，例如法律摘要吗？ 答：Mercury 2 提供与领先模型相当的推理级质量。对于需要高事实依据的任务，请结合其大型 128K 上下文窗口与检索增强生成（RAG）管道一起使用，以确保推理基于经过验证的、提供的文档。

问：Mercury 2 的定价结构是怎样的？ 答：已公布的定价结构极具竞争力：每 100 万输入 token 0.25 美元，每 100 万输出 token 0.75 美元，反映了其对高吞吐量生产用途的关注。

问：扩散架构与标准 Transformer 解码有何不同？ 答：标准模型按顺序解码（从左到右，一次一个 token）。Mercury 2 使用扩散技术同时生成多个 token，并在几个步骤中精炼整个草稿，从根本上改变了避免顺序瓶颈的速度曲线。

Mercury 2

介绍 Mercury 2：全球最快的推理语言模型

什么是 Mercury 2？

关键特性

如何使用 Mercury 2

用例

常见问题解答

替代品

紫东太初

PXZ AI

Slidesgo

Grok AI Assistant

Creativly

AakarDev AI