UStackUStack
Mercury 2 icon

Mercury 2

Mercury 2, LLM de raciocínio por difusão da Inception, otimizado para baixa latência em fluxos de IA de produção com loops iterativos.

Mercury 2

O que é Mercury 2?

Mercury 2 é um grande modelo de linguagem (LLM) focado em raciocínio, introduzido pela Inception. Seu propósito principal é entregar desempenho rápido de raciocínio para cargas de trabalho de IA de produção — especialmente onde a latência se acumula em “loops” iterativos como etapas de agentes, pipelines de recuperação e tarefas de extração.

Diferente de modelos autoregressivos que geram um token por vez da esquerda para a direita, Mercury 2 usa uma abordagem baseada em difusão para raciocínio em tempo real. O modelo gera saídas por refinamento paralelo, produzindo múltiplos tokens simultaneamente e convergindo em poucos passos.

Principais Recursos

  • Geração por refinamento paralelo baseado em difusão: Produz múltiplos tokens de uma vez em vez de decodificação sequencial, visando menor latência total em sistemas interativos.
  • Otimizado para velocidade em produção: Relatado como 1.009 tokens/seg em GPUs NVIDIA Blackwell, projetado para reduzir tempos de espera percebidos sob carga.
  • Raciocínio ajustável: Permite configurar o comportamento de raciocínio mantendo o equilíbrio velocidade-qualidade pretendido.
  • Contexto de 128K: Suporta entradas longas via janela de contexto de 128K.
  • Uso nativo de ferramentas: Inclui capacidade integrada para invocar ferramentas como parte de fluxos de raciocínio.
  • Saída JSON alinhada a esquemas: Pode retornar saídas estruturadas alinhadas a um esquema, útil para automação downstream.

Como Usar Mercury 2

  1. Integre Mercury 2 em sua pipeline de LLM onde a latência importa (ex.: loops de agentes, fluxos de recuperação aumentada ou tarefas de extração).
  2. Escolha uma configuração de raciocínio que atenda às suas necessidades de qualidade e tempo de resposta (o modelo suporta raciocínio ajustável).
  3. Forneça entradas dentro da janela de contexto de 128K e, quando necessário, solicite saída JSON alinhada a esquema para parsing confiável.
  4. Use chamadas de ferramentas para fluxos que exigem ações externas (ex.: busca, consultas a banco de dados ou outras etapas com suporte de ferramentas), especialmente em cenários de agentes multistep.

Casos de Uso

  • Fluxos de codificação e edição: Autocompletar, sugestões de próximas edições, refatorações e agentes de código interativos onde pausas podem interromper o fluxo do desenvolvedor.
  • Tarefas em loops agentic: Sistemas que encadeiam muitas chamadas de inferência por job (ex.: tomada de decisão multistep), onde reduzir latência por chamada altera quantos passos são viáveis.
  • Voz em tempo real e interação: Interfaces de voz e cenários HCI interativos com orçamentos apertados de latência, onde raciocínio mais rápido mantém interações semelhantes à fala responsivas.
  • Pipelines de busca e RAG: Fluxos de recuperação multistep e sumarização onde raciocínio é adicionado ao loop de busca sem exceder restrições de latência.
  • Limpeza de transcrições e outras tarefas de transformação iterativa: Aplicações que precisam de transformações rápidas e consistentes com refinamento em interfaces voltadas ao usuário.

FAQ

Como Mercury 2 difere da decodificação típica de LLMs?
Mercury 2 é descrito como baseado em difusão e gera respostas por refinamento paralelo em vez de decodificação autoregressiva sequencial, token por token.

Quais características de desempenho são declaradas para Mercury 2?
A página relata geração >5x mais rápida e 1.009 tokens/seg em GPUs NVIDIA Blackwell, além de orientações sobre otimização para responsividade percebida pelo usuário (incluindo latência p95 sob alta concorrência).

Qual comprimento de contexto Mercury 2 suporta?
Lista contexto de 128K.

Mercury 2 pode produzir saídas estruturadas?
Sim. É descrito como suportando saída JSON alinhada a esquema para respostas estruturadas.

Mercury 2 suporta uso de ferramentas?
A página afirma que possui uso nativo de ferramentas, destinado à integração de ferramentas em fluxos de raciocínio.

Alternativas

  • LLMs de raciocínio autoregressivos: LLMs tradicionais token por token podem ser mais simples de integrar, mas geralmente geram sequencialmente, o que pode aumentar latência em loops multistep.
  • Outras abordagens de geração por difusão ou não autoregressiva: Arquiteturas de modelos alternativas visando geração paralela podem oferecer metas semelhantes de latência, embora detalhes de implementação e comportamento de saída possam diferir.
  • LLMs menores otimizados para velocidade em uso interativo: Modelos focados em baixa latência podem sacrificar profundidade de raciocínio ou controlabilidade em comparação a uma configuração ajustada para raciocínio como Mercury 2.
  • Estratégias de orquestração de agente/RAG que minimizam chamadas: Em vez de alterar a arquitetura do modelo, equipes podem reduzir latência reestruturando fluxos (ex.: menos passos de recuperação, cache ou batching), embora isso possa limitar o quanto de raciocínio pode ser feito por tarefa.