Mercury 2
Mercury 2, LLM de raciocínio por difusão da Inception, otimizado para baixa latência em fluxos de IA de produção com loops iterativos.
O que é Mercury 2?
Mercury 2 é um grande modelo de linguagem (LLM) focado em raciocínio, introduzido pela Inception. Seu propósito principal é entregar desempenho rápido de raciocínio para cargas de trabalho de IA de produção — especialmente onde a latência se acumula em “loops” iterativos como etapas de agentes, pipelines de recuperação e tarefas de extração.
Diferente de modelos autoregressivos que geram um token por vez da esquerda para a direita, Mercury 2 usa uma abordagem baseada em difusão para raciocínio em tempo real. O modelo gera saídas por refinamento paralelo, produzindo múltiplos tokens simultaneamente e convergindo em poucos passos.
Principais Recursos
- Geração por refinamento paralelo baseado em difusão: Produz múltiplos tokens de uma vez em vez de decodificação sequencial, visando menor latência total em sistemas interativos.
- Otimizado para velocidade em produção: Relatado como 1.009 tokens/seg em GPUs NVIDIA Blackwell, projetado para reduzir tempos de espera percebidos sob carga.
- Raciocínio ajustável: Permite configurar o comportamento de raciocínio mantendo o equilíbrio velocidade-qualidade pretendido.
- Contexto de 128K: Suporta entradas longas via janela de contexto de 128K.
- Uso nativo de ferramentas: Inclui capacidade integrada para invocar ferramentas como parte de fluxos de raciocínio.
- Saída JSON alinhada a esquemas: Pode retornar saídas estruturadas alinhadas a um esquema, útil para automação downstream.
Como Usar Mercury 2
- Integre Mercury 2 em sua pipeline de LLM onde a latência importa (ex.: loops de agentes, fluxos de recuperação aumentada ou tarefas de extração).
- Escolha uma configuração de raciocínio que atenda às suas necessidades de qualidade e tempo de resposta (o modelo suporta raciocínio ajustável).
- Forneça entradas dentro da janela de contexto de 128K e, quando necessário, solicite saída JSON alinhada a esquema para parsing confiável.
- Use chamadas de ferramentas para fluxos que exigem ações externas (ex.: busca, consultas a banco de dados ou outras etapas com suporte de ferramentas), especialmente em cenários de agentes multistep.
Casos de Uso
- Fluxos de codificação e edição: Autocompletar, sugestões de próximas edições, refatorações e agentes de código interativos onde pausas podem interromper o fluxo do desenvolvedor.
- Tarefas em loops agentic: Sistemas que encadeiam muitas chamadas de inferência por job (ex.: tomada de decisão multistep), onde reduzir latência por chamada altera quantos passos são viáveis.
- Voz em tempo real e interação: Interfaces de voz e cenários HCI interativos com orçamentos apertados de latência, onde raciocínio mais rápido mantém interações semelhantes à fala responsivas.
- Pipelines de busca e RAG: Fluxos de recuperação multistep e sumarização onde raciocínio é adicionado ao loop de busca sem exceder restrições de latência.
- Limpeza de transcrições e outras tarefas de transformação iterativa: Aplicações que precisam de transformações rápidas e consistentes com refinamento em interfaces voltadas ao usuário.
FAQ
Como Mercury 2 difere da decodificação típica de LLMs?
Mercury 2 é descrito como baseado em difusão e gera respostas por refinamento paralelo em vez de decodificação autoregressiva sequencial, token por token.
Quais características de desempenho são declaradas para Mercury 2?
A página relata geração >5x mais rápida e 1.009 tokens/seg em GPUs NVIDIA Blackwell, além de orientações sobre otimização para responsividade percebida pelo usuário (incluindo latência p95 sob alta concorrência).
Qual comprimento de contexto Mercury 2 suporta?
Lista contexto de 128K.
Mercury 2 pode produzir saídas estruturadas?
Sim. É descrito como suportando saída JSON alinhada a esquema para respostas estruturadas.
Mercury 2 suporta uso de ferramentas?
A página afirma que possui uso nativo de ferramentas, destinado à integração de ferramentas em fluxos de raciocínio.
Alternativas
- LLMs de raciocínio autoregressivos: LLMs tradicionais token por token podem ser mais simples de integrar, mas geralmente geram sequencialmente, o que pode aumentar latência em loops multistep.
- Outras abordagens de geração por difusão ou não autoregressiva: Arquiteturas de modelos alternativas visando geração paralela podem oferecer metas semelhantes de latência, embora detalhes de implementação e comportamento de saída possam diferir.
- LLMs menores otimizados para velocidade em uso interativo: Modelos focados em baixa latência podem sacrificar profundidade de raciocínio ou controlabilidade em comparação a uma configuração ajustada para raciocínio como Mercury 2.
- Estratégias de orquestração de agente/RAG que minimizam chamadas: Em vez de alterar a arquitetura do modelo, equipes podem reduzir latência reestruturando fluxos (ex.: menos passos de recuperação, cache ou batching), embora isso possa limitar o quanto de raciocínio pode ser feito por tarefa.
Alternativas
AakarDev AI
AakarDev AI é uma plataforma poderosa que simplifica o desenvolvimento de aplicações de IA com integração perfeita de banco de dados vetorial, permitindo implantação rápida e escalabilidade.
BenchSpan
BenchSpan executa benchmarks de agentes de IA em paralelo, registra scores e falhas em um histórico organizado e facilita reprodutibilidade por commit.
Edgee
Edgee é um gateway de IA nativo na borda que comprime prompts antes de chegar a provedores de LLM, com uma API compatível com OpenAI.
LobeHub
LobeHub é uma plataforma de código aberto projetada para construir, implantar e colaborar com companheiros de equipe de IA, funcionando como uma Interface Web Universal de LLM.
Claude Opus 4.5
Apresentando o melhor modelo do mundo para codificação, agentes, uso de computadores e fluxos de trabalho empresariais.
Codex Plugins
Use Codex Plugins para combinar skills, integrações de apps e servidores MCP em fluxos reutilizáveis, ampliando o acesso do Codex a Gmail, Drive e Slack.