UStackUStack
Mercury 2 favicon

Mercury 2

Mercury 2 é o modelo de linguagem de raciocínio mais rápido do mundo, utilizando arquitetura baseada em difusão para entregar qualidade de nível de raciocínio com velocidades de IA de produção instantâneas.

Visitar Site
Mercury 2

O que é Mercury 2?

Apresentando Mercury 2: O Modelo de Linguagem de Raciocínio Mais Rápido do Mundo

O que é Mercury 2?

Mercury 2 é um Modelo de Linguagem Grande (LLM) de raciocínio revolucionário desenvolvido pela Inception, projetado especificamente para eliminar os gargalos de latência que assolam as aplicações modernas de IA de produção. Ao contrário dos modelos tradicionais que dependem de decodificação autorregressiva lenta e sequencial (um token de cada vez), o Mercury 2 emprega uma arquitetura inovadora baseada em difusão. Isso permite que ele gere respostas através de refinamento paralelo, convergindo para a saída final em apenas algumas etapas. O propósito central do Mercury 2 é fazer com que a IA de produção pareça instantânea, garantindo que tarefas complexas de raciocínio de múltiplas etapas possam ser executadas dentro dos orçamentos de latência em tempo real, sem sacrificar a qualidade.

Esta mudança fundamental na metodologia de decodificação resulta em um desempenho que excede 1.000 tokens por segundo em GPUs NVIDIA modernas, tornando-o significativamente mais rápido (mais de 5x) do que muitos modelos líderes otimizados para velocidade. Ao desacoplar o raciocínio de alta qualidade da alta latência, o Mercury 2 redefine a curva de qualidade-velocidade, tornando a IA sofisticada acessível para experiências de usuário sensíveis à latência, onde cada milissegundo conta.

Principais Recursos

O Mercury 2 se destaca devido à sua inovação arquitetônica e métricas de desempenho:

  • Raciocínio Baseado em Difusão: Gera tokens em etapas de refinamento paralelo em vez de sequencialmente, levando a velocidades de inferência dramaticamente mais rápidas.
  • Velocidade Excepcional: Atinge mais de 1.009 tokens/seg em GPUs NVIDIA Blackwell, garantindo capacidade de resposta mesmo sob alta concorrência.
  • Qualidade de Nível de Raciocínio: Entrega qualidade competitiva com os principais modelos otimizados para velocidade, mantendo a latência em tempo real.
  • Raciocínio Ajustável (Tunable Reasoning): Oferece flexibilidade para ajustar o nível de raciocínio necessário para tarefas específicas.
  • Janela de Contexto Grande: Suporta um comprimento de contexto de 128K, permitindo processamento complexo de documentos e interação de formato longo.
  • Uso Nativo de Ferramentas: Capacidades integradas para interagir com sistemas e funções externas.
  • Saída JSON Alinhada a Esquema: Garante geração de dados estruturados e confiáveis, crucial para integração em pipelines de software.
  • Perfil de Latência Otimizado: Foca em melhorar a latência p95 e o comportamento consistente de turno a turno sob carga.

Como Usar o Mercury 2

Começar com o Mercury 2 envolve integrá-lo aos seus fluxos de trabalho de IA existentes, focando em aplicações onde velocidade e raciocínio complexo são críticos. Como o Mercury 2 é projetado para implantação em produção, os usuários geralmente o acessam por meio de um endpoint de API fornecido pela Inception.

  1. Acesso e Integração: Obtenha as credenciais de acesso à API para o serviço Mercury 2. Integre o endpoint ao backend da sua aplicação, de forma semelhante à integração com qualquer outro provedor de LLM importante.
  2. Engenharia de Prompt: Crie prompts que aproveitem suas capacidades de raciocínio. Para tarefas que exigem saída estruturada (como extração de dados ou geração de código), utilize o recurso de saída JSON alinhada a esquema.
  3. Ajuste de Parâmetros: Ajuste parâmetros como tunable_reasoning, se disponível, para equilibrar o custo computacional com a profundidade da análise necessária para a interação específica do usuário.
  4. Foco na Implantação: Implante o Mercury 2 em loops sensíveis à latência, como assistentes de codificação interativos, agentes de voz em tempo real ou fluxos de trabalho agenticos de alto volume, onde a latência acumulada é prejudicial à experiência do usuário.

Casos de Uso

O Mercury 2 está especificamente posicionado para revolucionar aplicações onde a experiência do usuário é ditada por feedback instantâneo:

  1. Codificação e Edição Interativas: Para desenvolvedores que usam ferramentas como Zed, o Mercury 2 fornece preenchimento automático, sugestões de próxima edição e capacidades de refatoração que parecem instantâneas, integrando-se perfeitamente ao processo de pensamento do desenvolvedor em vez de interrompê-lo.
  2. Fluxos de Trabalho Agenticos em Escala: Em sistemas agenticos complexos que encadeiam dezenas de chamadas de inferência (por exemplo, otimização autônoma de campanhas ou processamento complexo de dados), a baixa latência por chamada do Mercury 2 permite que mais etapas sejam executadas dentro do orçamento total da tarefa, levando a resultados finais superiores.
  3. Voz em Tempo Real e HCI: Interfaces de voz exigem os orçamentos de latência mais rigorosos. O Mercury 2 permite qualidade de nível de raciocínio em assistentes de voz e IA conversacional, garantindo que a geração de texto acompanhe as cadências de fala naturais, fazendo com que as interações pareçam humanas e fluidas.
  4. Pipelines de Busca e RAG de Baixa Latência: Ao realizar recuperação de múltiplos saltos, reclassificação e sumarização (RAG), o Mercury 2 permite que os desenvolvedores injetem etapas de raciocínio sofisticadas no loop de busca sem exceder os alvos de latência de submilisegundo, fornecendo respostas imediatas e inteligentes sobre dados proprietários.

FAQ

P: Como a vantagem de velocidade do Mercury 2 se traduz em economia de custos? A: Embora o benefício principal seja a redução da latência, a inferência mais rápida significa que as tarefas são concluídas mais rapidamente, potencialmente reduzindo o tempo total de computação necessário por solicitação, o que pode se traduzir em custos operacionais mais baixos, especialmente em alto volume.

P: O Mercury 2 é compatível com a infraestrutura padrão da NVIDIA? A: Sim, o Mercury 2 é otimizado para GPUs NVIDIA modernas, demonstrando especificamente alto desempenho no hardware mais recente, como as GPUs NVIDIA Blackwell, garantindo escalabilidade para implantações empresariais.

P: Posso usar o Mercury 2 para tarefas que exigem alta precisão factual, como sumarização legal? A: O Mercury 2 oferece qualidade de nível de raciocínio competitiva com os principais modelos. Para tarefas que exigem alta fundamentação factual, utilize sua grande janela de contexto de 128K em conjunto com pipelines de Geração Aumentada por Recuperação (RAG) para garantir que o raciocínio seja baseado em documentos verificados e fornecidos.

P: Qual é a estrutura de preços para o Mercury 2? A: A estrutura de preços publicada é altamente competitiva: US$ 0,25 por 1 Milhão de tokens de entrada e US$ 0,75 por 1 Milhão de tokens de saída, refletindo seu foco no uso de produção de alto rendimento.

P: Como a arquitetura de difusão difere da decodificação de transformador padrão? A: Modelos padrão decodificam sequencialmente (da esquerda para a direita, um token por vez). O Mercury 2 usa difusão para gerar vários tokens simultaneamente e refina o rascunho completo ao longo de algumas etapas, mudando fundamentalmente a curva de velocidade ao evitar gargalos sequenciais.

Mercury 2 | UStack