Mercury 2
Mercury 2 — диффузионная reasoning-модель Inception для низкой задержки в production AI: ускоряет итеративные agent и retrieval-цепочки.
Что такое Mercury 2?
Mercury 2 — reasoning-ориентированная большая языковая модель (LLM) от Inception. Её основная цель — обеспечивать быструю reasoning-производительность для production AI-задач, особенно где задержка накапливается в итеративных «циклах», таких как шаги агента, retrieval-пайплайны и задачи извлечения.
В отличие от авторегрессионных моделей, генерирующих токены по одному слева направо, Mercury 2 использует диффузионный подход для reasoning в реальном времени. Модель генерирует выводы через параллельную доработку, производя несколько токенов одновременно и сходясь за малое число шагов.
Ключевые возможности
- Диффузионная параллельная доработка: Генерирует несколько токенов одновременно вместо последовательного декодирования, снижая end-to-end задержку для интерактивных систем.
- Оптимизирована для production по скорости: Заявлено 1,009 tokens/sec на NVIDIA Blackwell GPUs, для сокращения воспринимаемого времени ожидания под нагрузкой.
- Настраиваемый reasoning: Позволяет конфигурировать поведение reasoning при сохранении баланса скорости и качества.
- 128K контекст: Поддерживает длинные входы через окно контекста 128K.
- Встроенная работа с инструментами: Имеет нативную возможность вызова инструментов в reasoning-воркфлоу.
- JSON-вывод, aligned к схеме: Может возвращать структурированные выходы, соответствующие схеме, для downstream-автоматизации.
Как использовать Mercury 2
- Интегрируйте Mercury 2 в LLM-пайплайн, где важна задержка (например, agent-циклы, retrieval-augmented воркфлоу или задачи извлечения).
- Выберите настройку reasoning, подходящую для ваших нужд по качеству и времени отклика (модель поддерживает tunable reasoning).
- Предоставляйте входы в пределах 128K контекстного окна и, при необходимости, запрашивайте JSON-вывод, aligned к схеме, для надёжного парсинга.
- Используйте вызовы инструментов для воркфлоу с внешними действиями (например, поиск, запросы к БД или другие tool-backed шаги), особенно в multi-step agent-сценариях.
Сценарии использования
- Кодинг и редактирование: Автодополнение, подсказки следующего редактирования, рефакторинг и интерактивные code-агенты, где паузы нарушают developer-флоу.
- Agentic loop-задачи: Системы, цепляющие множество inference-вызовов на задачу (например, multi-step принятие решений), где снижение latency per call позволяет больше шагов.
- Голос и взаимодействие в реальном времени: Voice-интерфейсы и HCI-сценарии с жёсткими latency-бюджетами, где быстрый reasoning сохраняет отзывчивость speech-like взаимодействия.
- Search и RAG-пайплайны: Multi-hop retrieval и суммаризация, где reasoning добавляется в search-loop без превышения latency-ограничений.
- Очистка транскриптов и другие итеративные трансформации: Приложения, нуждающиеся в быстрых, consistent трансформациях и доработках через user-facing интерфейсы.
FAQ
Чем Mercury 2 отличается от типичного LLM-декодирования?
Mercury 2 — диффузионная, генерирует ответы через параллельную доработку, а не последовательное авторегрессионное декодирование по одному токену.
Какие характеристики производительности указаны для Mercury 2?
Страница сообщает о >5x более быстрой генерации и 1,009 tokens/sec на NVIDIA Blackwell GPUs, плюс рекомендации по оптимизации user-perceived отзывчивости (включая p95 latency при высокой concurrency).
Какую длину контекста поддерживает Mercury 2?
Указано 128K контекст.
Может ли Mercury 2 генерировать структурированные выходы?
Да. Поддерживает schema-aligned JSON-вывод для структурированных ответов.
Поддерживает ли Mercury 2 работу с инструментами?
Страница указывает на native tool use для интеграции инструментов в reasoning-воркфлоу.
Альтернативы
- Авторегрессионные reasoning LLM: Традиционные token-by-token LLM проще интегрировать, но генерируют последовательно, увеличивая задержку в multi-step циклах.
- Другие диффузионные или non-autoregressive подходы: Альтернативные архитектуры для параллельной генерации могут давать похожие latency-цели, но отличаться в деталях реализации и поведении вывода.
- Маленькие speed-optimized LLM для интерактива: Модели с низкой задержкой могут жертвовать глубиной reasoning или controllability по сравнению с reasoning-tuned Mercury 2.
- Стратегии оркестрации Agent/RAG с минимумом вызовов: Вместо смены архитектуры модели можно снижать задержку реструктуризацией воркфлоу (меньше retrieval-шагов, кэширование, batching), но это ограничит reasoning per task.
Альтернативы
AakarDev AI
AakarDev AI — это мощная платформа, которая упрощает разработку приложений ИИ с бесшовной интеграцией векторных баз данных, позволяя быстрое развертывание и масштабируемость.
BenchSpan
BenchSpan запускает AI agent бенчмарки параллельно, фиксирует результаты и ошибки в истории прогонов, помогает воспроизводить их по commit hash.
Edgee
Edgee — edge-native AI gateway: сжимает промпты перед LLM-провайдерами и дает единый OpenAI-compatible API для маршрутизации 200+ моделей.
LobeHub
LobeHub — это платформа с открытым исходным кодом, предназначенная для создания, развертывания и совместной работы с командами ИИ-агентов, функционирующая как универсальный веб-интерфейс для LLM.
Claude Opus 4.5
Представляем лучшую модель в мире для кодирования, агентов, использования компьютеров и корпоративных рабочих процессов.
Codex Plugins
Используйте Codex Plugins, чтобы объединять skills, интеграции приложений и MCP-серверы в повторно используемые сценарии для доступа к Gmail, Google Drive и Slack.