Mercury 2

Mercury 2 是什么？

Mercury 2 是 Inception 推出的专注于推理的大型语言模型 (LLM)。其核心目的是为生产 AI 工作负载提供快速推理性能——特别是在代理步骤、检索管道和提取任务等迭代“循环”中延迟累积的场景。

与其他从左到右逐个生成令牌的自回归模型不同，Mercury 2 被描述为采用基于扩散的方法进行实时推理。该模型通过并行精炼生成输出，同时产生多个令牌，并在少量步骤中收敛。

基于扩散的并行精炼生成：同时产生多个令牌而非顺序解码，针对交互系统实现更低的端到端延迟。
针对生产的速度优化：报告在 NVIDIA Blackwell GPUs 上达到 1,009 tokens/sec，旨在负载下减少感知等待时间。
可调推理：允许配置推理行为，同时保持预期的速度–质量平衡。
128K 上下文：通过 128K 上下文窗口 支持长输入。
原生工具使用：内置调用工具的能力，作为推理流程的一部分。
模式对齐的 JSON 输出：可返回与模式对齐的结构化输出，便于下游自动化。

Mercury 2 与典型 LLM 解码有何不同？
Mercury 2 被描述为基于扩散，通过并行精炼生成响应，而非顺序逐令牌的自回归解码。

Mercury 2 的性能特性有哪些？
页面报告 >5x 更快生成 和 在 NVIDIA Blackwell GPUs 上 1,009 tokens/sec，并提供优化用户感知响应性指导（包括高并发下的 p95 延迟）。

Mercury 2 支持什么上下文长度？
列出 128K 上下文。

Mercury 2 能产生结构化输出吗？
是的。它被描述为支持 模式对齐的 JSON 输出 以生成结构化响应。

Mercury 2 支持工具使用吗？
页面指出其具有 原生工具使用，用于将工具集成到推理工作流中。