UStackUStack
Mercury 2 icon

Mercury 2

Mercury 2 — диффузионная reasoning-модель Inception для низкой задержки в production AI: ускоряет итеративные agent и retrieval-цепочки.

Mercury 2

Что такое Mercury 2?

Mercury 2 — reasoning-ориентированная большая языковая модель (LLM) от Inception. Её основная цель — обеспечивать быструю reasoning-производительность для production AI-задач, особенно где задержка накапливается в итеративных «циклах», таких как шаги агента, retrieval-пайплайны и задачи извлечения.

В отличие от авторегрессионных моделей, генерирующих токены по одному слева направо, Mercury 2 использует диффузионный подход для reasoning в реальном времени. Модель генерирует выводы через параллельную доработку, производя несколько токенов одновременно и сходясь за малое число шагов.

Ключевые возможности

  • Диффузионная параллельная доработка: Генерирует несколько токенов одновременно вместо последовательного декодирования, снижая end-to-end задержку для интерактивных систем.
  • Оптимизирована для production по скорости: Заявлено 1,009 tokens/sec на NVIDIA Blackwell GPUs, для сокращения воспринимаемого времени ожидания под нагрузкой.
  • Настраиваемый reasoning: Позволяет конфигурировать поведение reasoning при сохранении баланса скорости и качества.
  • 128K контекст: Поддерживает длинные входы через окно контекста 128K.
  • Встроенная работа с инструментами: Имеет нативную возможность вызова инструментов в reasoning-воркфлоу.
  • JSON-вывод, aligned к схеме: Может возвращать структурированные выходы, соответствующие схеме, для downstream-автоматизации.

Как использовать Mercury 2

  1. Интегрируйте Mercury 2 в LLM-пайплайн, где важна задержка (например, agent-циклы, retrieval-augmented воркфлоу или задачи извлечения).
  2. Выберите настройку reasoning, подходящую для ваших нужд по качеству и времени отклика (модель поддерживает tunable reasoning).
  3. Предоставляйте входы в пределах 128K контекстного окна и, при необходимости, запрашивайте JSON-вывод, aligned к схеме, для надёжного парсинга.
  4. Используйте вызовы инструментов для воркфлоу с внешними действиями (например, поиск, запросы к БД или другие tool-backed шаги), особенно в multi-step agent-сценариях.

Сценарии использования

  • Кодинг и редактирование: Автодополнение, подсказки следующего редактирования, рефакторинг и интерактивные code-агенты, где паузы нарушают developer-флоу.
  • Agentic loop-задачи: Системы, цепляющие множество inference-вызовов на задачу (например, multi-step принятие решений), где снижение latency per call позволяет больше шагов.
  • Голос и взаимодействие в реальном времени: Voice-интерфейсы и HCI-сценарии с жёсткими latency-бюджетами, где быстрый reasoning сохраняет отзывчивость speech-like взаимодействия.
  • Search и RAG-пайплайны: Multi-hop retrieval и суммаризация, где reasoning добавляется в search-loop без превышения latency-ограничений.
  • Очистка транскриптов и другие итеративные трансформации: Приложения, нуждающиеся в быстрых, consistent трансформациях и доработках через user-facing интерфейсы.

FAQ

Чем Mercury 2 отличается от типичного LLM-декодирования?
Mercury 2 — диффузионная, генерирует ответы через параллельную доработку, а не последовательное авторегрессионное декодирование по одному токену.

Какие характеристики производительности указаны для Mercury 2?
Страница сообщает о >5x более быстрой генерации и 1,009 tokens/sec на NVIDIA Blackwell GPUs, плюс рекомендации по оптимизации user-perceived отзывчивости (включая p95 latency при высокой concurrency).

Какую длину контекста поддерживает Mercury 2?
Указано 128K контекст.

Может ли Mercury 2 генерировать структурированные выходы?
Да. Поддерживает schema-aligned JSON-вывод для структурированных ответов.

Поддерживает ли Mercury 2 работу с инструментами?
Страница указывает на native tool use для интеграции инструментов в reasoning-воркфлоу.

Альтернативы

  • Авторегрессионные reasoning LLM: Традиционные token-by-token LLM проще интегрировать, но генерируют последовательно, увеличивая задержку в multi-step циклах.
  • Другие диффузионные или non-autoregressive подходы: Альтернативные архитектуры для параллельной генерации могут давать похожие latency-цели, но отличаться в деталях реализации и поведении вывода.
  • Маленькие speed-optimized LLM для интерактива: Модели с низкой задержкой могут жертвовать глубиной reasoning или controllability по сравнению с reasoning-tuned Mercury 2.
  • Стратегии оркестрации Agent/RAG с минимумом вызовов: Вместо смены архитектуры модели можно снижать задержку реструктуризацией воркфлоу (меньше retrieval-шагов, кэширование, batching), но это ограничит reasoning per task.

Альтернативы

AakarDev AI icon

AakarDev AI

AakarDev AI — это мощная платформа, которая упрощает разработку приложений ИИ с бесшовной интеграцией векторных баз данных, позволяя быстрое развертывание и масштабируемость.

BenchSpan icon

BenchSpan

BenchSpan запускает AI agent бенчмарки параллельно, фиксирует результаты и ошибки в истории прогонов, помогает воспроизводить их по commit hash.

Edgee icon

Edgee

Edgee — edge-native AI gateway: сжимает промпты перед LLM-провайдерами и дает единый OpenAI-compatible API для маршрутизации 200+ моделей.

LobeHub icon

LobeHub

LobeHub — это платформа с открытым исходным кодом, предназначенная для создания, развертывания и совместной работы с командами ИИ-агентов, функционирующая как универсальный веб-интерфейс для LLM.

Claude Opus 4.5 icon

Claude Opus 4.5

Представляем лучшую модель в мире для кодирования, агентов, использования компьютеров и корпоративных рабочих процессов.

Codex Plugins icon

Codex Plugins

Используйте Codex Plugins, чтобы объединять skills, интеграции приложений и MCP-серверы в повторно используемые сценарии для доступа к Gmail, Google Drive и Slack.