什么是 Mercury 2?
介绍 Mercury 2:全球最快的推理语言模型
什么是 Mercury 2?
Mercury 2 是 Inception 开发的一款革命性的推理大型语言模型(LLM),专门设计用于消除困扰现代生产级 AI 应用的延迟瓶颈。与依赖缓慢、顺序自回归解码(一次一个 token)的传统模型不同,Mercury 2 采用了新颖的基于扩散的架构。这使得它能够通过并行细化生成响应,仅用几个步骤即可收敛到最终输出。Mercury 2 的核心目的是让生产级 AI 感觉即时,确保复杂的多步骤推理任务能够在实时延迟预算内执行,而不会牺牲质量。
解码方法的这种根本性转变带来了性能上的飞跃,在现代 NVIDIA GPU 上实现了超过每秒 1,000 个 token 的速度,比许多领先的优化速度模型快 5 倍以上。通过将高质量推理与高延迟解耦,Mercury 2 重新定义了质量-速度曲线,使复杂的 AI 能够应用于对延迟敏感的用户体验中,在这些体验中,每一毫秒都至关重要。
关键特性
Mercury 2 因其架构创新和性能指标而脱颖而出:
- 基于扩散的推理: 以并行细化步骤而非顺序生成 token,从而实现速度极快的推理。
- 卓越的速度: 在 NVIDIA Blackwell GPU 上实现超过 1,009 tokens/秒,确保在高并发下仍能保持响应能力。
- 推理级质量: 在保持实时延迟的同时,提供与领先的优化速度模型相当的质量。
- 可调谐推理: 提供调整特定任务所需推理程度的灵活性。
- 大上下文窗口: 支持 128K 上下文长度,可处理复杂的文档和长篇交互。
- 原生工具使用: 内置与外部系统和函数交互的能力。
- Schema 对齐的 JSON 输出: 确保对集成到软件管道至关重要的可靠、结构化数据生成。
- 优化的延迟特性: 专注于在负载下改善 p95 延迟和一致的轮次间行为。
如何使用 Mercury 2
开始使用 Mercury 2 需要将其集成到您现有的 AI 工作流程中,重点关注速度和复杂推理至关重要的应用。由于 Mercury 2 专为生产部署而设计,用户通常通过 Inception 提供的 API 端点访问它。
- 访问和集成: 获取 Mercury 2 服务的 API 访问凭证。将端点集成到您的应用程序后端,类似于集成任何其他主要的 LLM 提供商。
- 提示工程: 设计利用其推理能力的提示。对于需要结构化输出(如数据提取或代码生成)的任务,请利用 Schema 对齐的 JSON 输出功能。
- 参数调整: 如果可用,调整如
tunable_reasoning等参数,以平衡计算成本与特定用户交互所需的分析深度。 - 部署重点: 将 Mercury 2 部署在对延迟敏感的循环中,例如交互式编码助手、实时语音代理或高容量的智能体工作流程,在这些流程中,累积延迟对用户体验有害。
用例
Mercury 2 定位为彻底改变用户体验由即时反馈决定的应用程序:
- 交互式编码和编辑: 对于使用 Zed 等工具的开发人员,Mercury 2 提供的自动完成、下一个编辑建议和重构功能感觉是即时的,无缝地融入开发者的思维过程而不是打断它。
- 大规模智能体工作流程: 在需要链接数十次推理调用的复杂智能体系统中(例如,自主活动优化或复杂数据处理),Mercury 2 的低单次调用延迟允许在整体任务预算内执行更多步骤,从而获得更优异的最终结果。
- 实时语音和 HCI: 语音界面要求最严格的延迟预算。Mercury 2 能够在语音助手和对话式 AI 中实现推理级别的质量,确保文本生成与自然语音的节奏保持同步,使交互感觉流畅且像人一样。
- 低延迟搜索和 RAG 管道: 在执行多跳检索、重新排序和摘要(RAG)时,Mercury 2 允许开发人员在不超出亚秒级延迟目标的情况下,将复杂的推理步骤注入搜索循环中,从而就专有数据提供即时、智能的答案。
常见问题解答
问:Mercury 2 的速度优势如何转化为成本节约? 答:虽然主要优势是延迟降低,但更快的推理意味着任务完成得更快,可能减少每次请求所需的总计算时间,这在高流量时可能转化为更低的运营成本。
问:Mercury 2 是否与标准的 NVIDIA 基础设施兼容? 答:是的,Mercury 2 针对现代 NVIDIA GPU 进行了优化,特别是在 NVIDIA Blackwell GPU 等最新硬件上展示出高性能,确保了企业部署的可扩展性。
问:我可以使用 Mercury 2 处理需要高事实准确性的任务,例如法律摘要吗? 答:Mercury 2 提供与领先模型相当的推理级质量。对于需要高事实依据的任务,请结合其大型 128K 上下文窗口与检索增强生成(RAG)管道一起使用,以确保推理基于经过验证的、提供的文档。
问:Mercury 2 的定价结构是怎样的? 答:已公布的定价结构极具竞争力:每 100 万输入 token 0.25 美元,每 100 万输出 token 0.75 美元,反映了其对高吞吐量生产用途的关注。
问:扩散架构与标准 Transformer 解码有何不同? 答:标准模型按顺序解码(从左到右,一次一个 token)。Mercury 2 使用扩散技术同时生成多个 token,并在几个步骤中精炼整个草稿,从根本上改变了避免顺序瓶颈的速度曲线。
Alternatives
紫东太初
中国科学院自动化研究所和武汉人工智能研究院推出的新一代多模态大模型,支持多轮问答、文本创作、图像生成等全面问答任务。
通义千问
通义千问是全球领先的AI大语言模型,具备自然语言理解、文本生成、视觉理解、音频理解等多种能力。
PXZ AI
一个集成图像、视频、语音、写作和聊天工具的全能AI平台,以增强创造力和协作。
Grok AI Assistant
Grok 是 xAI 开发的一款免费人工智能助手,旨在优先考虑真实性和客观性,同时提供实时信息访问和图像生成等高级功能。
AakarDev AI
AakarDev AI 是一个强大的平台,通过无缝的向量数据库集成简化 AI 应用程序的开发,实现快速部署和可扩展性。
AI Song Maker
使用我们的AI Song Maker和音乐生成器轻松创建免版税歌曲。