Mercury 2

Mercury 2 — диффузионная reasoning-модель Inception для низкой задержки в production AI: ускоряет итеративные agent и retrieval-цепочки.

Большие языковые модели

Разработка ИИ Агентов

Посетить Сайт

Что такое Mercury 2?

Mercury 2 — reasoning-ориентированная большая языковая модель (LLM) от Inception. Её основная цель — обеспечивать быструю reasoning-производительность для production AI-задач, особенно где задержка накапливается в итеративных «циклах», таких как шаги агента, retrieval-пайплайны и задачи извлечения.

В отличие от авторегрессионных моделей, генерирующих токены по одному слева направо, Mercury 2 использует диффузионный подход для reasoning в реальном времени. Модель генерирует выводы через параллельную доработку, производя несколько токенов одновременно и сходясь за малое число шагов.

Ключевые возможности

Диффузионная параллельная доработка: Генерирует несколько токенов одновременно вместо последовательного декодирования, снижая end-to-end задержку для интерактивных систем.
Оптимизирована для production по скорости: Заявлено 1,009 tokens/sec на NVIDIA Blackwell GPUs, для сокращения воспринимаемого времени ожидания под нагрузкой.
Настраиваемый reasoning: Позволяет конфигурировать поведение reasoning при сохранении баланса скорости и качества.
128K контекст: Поддерживает длинные входы через окно контекста 128K.
Встроенная работа с инструментами: Имеет нативную возможность вызова инструментов в reasoning-воркфлоу.
JSON-вывод, aligned к схеме: Может возвращать структурированные выходы, соответствующие схеме, для downstream-автоматизации.

Как использовать Mercury 2

Интегрируйте Mercury 2 в LLM-пайплайн, где важна задержка (например, agent-циклы, retrieval-augmented воркфлоу или задачи извлечения).
Выберите настройку reasoning, подходящую для ваших нужд по качеству и времени отклика (модель поддерживает tunable reasoning).
Предоставляйте входы в пределах 128K контекстного окна и, при необходимости, запрашивайте JSON-вывод, aligned к схеме, для надёжного парсинга.
Используйте вызовы инструментов для воркфлоу с внешними действиями (например, поиск, запросы к БД или другие tool-backed шаги), особенно в multi-step agent-сценариях.

Сценарии использования

Кодинг и редактирование: Автодополнение, подсказки следующего редактирования, рефакторинг и интерактивные code-агенты, где паузы нарушают developer-флоу.
Agentic loop-задачи: Системы, цепляющие множество inference-вызовов на задачу (например, multi-step принятие решений), где снижение latency per call позволяет больше шагов.
Голос и взаимодействие в реальном времени: Voice-интерфейсы и HCI-сценарии с жёсткими latency-бюджетами, где быстрый reasoning сохраняет отзывчивость speech-like взаимодействия.
Search и RAG-пайплайны: Multi-hop retrieval и суммаризация, где reasoning добавляется в search-loop без превышения latency-ограничений.
Очистка транскриптов и другие итеративные трансформации: Приложения, нуждающиеся в быстрых, consistent трансформациях и доработках через user-facing интерфейсы.

FAQ

Чем Mercury 2 отличается от типичного LLM-декодирования?
Mercury 2 — диффузионная, генерирует ответы через параллельную доработку, а не последовательное авторегрессионное декодирование по одному токену.

Какие характеристики производительности указаны для Mercury 2?
Страница сообщает о >5x более быстрой генерации и 1,009 tokens/sec на NVIDIA Blackwell GPUs, плюс рекомендации по оптимизации user-perceived отзывчивости (включая p95 latency при высокой concurrency).

Какую длину контекста поддерживает Mercury 2?
Указано 128K контекст.

Может ли Mercury 2 генерировать структурированные выходы?
Да. Поддерживает schema-aligned JSON-вывод для структурированных ответов.

Поддерживает ли Mercury 2 работу с инструментами?
Страница указывает на native tool use для интеграции инструментов в reasoning-воркфлоу.

Альтернативы

Авторегрессионные reasoning LLM: Традиционные token-by-token LLM проще интегрировать, но генерируют последовательно, увеличивая задержку в multi-step циклах.
Другие диффузионные или non-autoregressive подходы: Альтернативные архитектуры для параллельной генерации могут давать похожие latency-цели, но отличаться в деталях реализации и поведении вывода.
Маленькие speed-optimized LLM для интерактива: Модели с низкой задержкой могут жертвовать глубиной reasoning или controllability по сравнению с reasoning-tuned Mercury 2.
Стратегии оркестрации Agent/RAG с минимумом вызовов: Вместо смены архитектуры модели можно снижать задержку реструктуризацией воркфлоу (меньше retrieval-шагов, кэширование, batching), но это ограничит reasoning per task.

Альтернативы

AakarDev AI

AakarDev AI — это мощная платформа, которая упрощает разработку приложений ИИ с бесшовной интеграцией векторных баз данных, позволяя быстрое развертывание и масштабируемость.

BenchSpan

BenchSpan запускает AI agent бенчмарки параллельно, фиксирует результаты и ошибки в истории прогонов, помогает воспроизводить их по commit hash.

Edgee

Edgee — edge-native AI gateway: сжимает промпты перед LLM-провайдерами и дает единый OpenAI-compatible API для маршрутизации 200+ моделей.

Codex Plugins

Используйте Codex Plugins, чтобы объединять skills, интеграции приложений и MCP-серверы в повторно используемые сценарии для доступа к Gmail, Google Drive и Slack.

Wallie

Wallie — open-source AI streamer framework для VTuber и AI-стримов: real-time vision, чат, TTS и аватар для Twitch, YouTube и Kick.

Whirr

Whirr — тихое приложение для macOS в строке меню: зеркалирует активность агента Claude Code в выемке Mac, чтобы быстро смотреть прогресс, не отвлекаясь.