UStackUStack
Mercury 2 icon

Mercury 2

Mercury 2 de Inception: LLM de razonamiento con enfoque en baja latencia para flujos de IA en producción con bucles iterativos.

Mercury 2

¿Qué es Mercury 2?

Mercury 2 es un modelo de lenguaje grande (LLM) enfocado en razonamiento introducido por Inception. Su propósito principal es ofrecer un rendimiento de razonamiento rápido para cargas de trabajo de IA en producción, especialmente donde la latencia se acumula en «bucles» iterativos como pasos de agentes, pipelines de recuperación y trabajos de extracción.

A diferencia de los modelos autoregresivos que generan un token a la vez de izquierda a derecha, Mercury 2 utiliza un enfoque basado en difusión para razonamiento en tiempo real. El modelo genera salidas mediante refinamiento paralelo, produciendo múltiples tokens simultáneamente y convergiendo en un pequeño número de pasos.

Características clave

  • Generación con refinamiento paralelo basado en difusión: Produce múltiples tokens a la vez en lugar de decodificación secuencial, buscando menor latencia de extremo a extremo en sistemas interactivos.
  • Optimizado para velocidad en producción: Reportado como 1,009 tokens/sec en GPUs NVIDIA Blackwell, diseñado para reducir los tiempos de espera percibidos bajo carga.
  • Razonamiento ajustable: Permite configurar el comportamiento de razonamiento manteniendo el equilibrio velocidad-calidad deseado.
  • Contexto de 128K: Soporta entradas largas mediante una ventana de contexto de 128K.
  • Uso nativo de herramientas: Incluye capacidad integrada para invocar herramientas como parte de flujos de razonamiento.
  • Salida JSON alineada con esquemas: Puede devolver salidas estructuradas alineadas a un esquema, útil para automatización posterior.

Cómo usar Mercury 2

  1. Integra Mercury 2 en tu pipeline de LLM donde la latencia importa (p. ej., bucles de agentes, flujos de trabajo con recuperación aumentada o tareas de extracción).
  2. Elige un ajuste de razonamiento que se adapte a tus necesidades de calidad y tiempo de respuesta (el modelo soporta razonamiento ajustable).
  3. Proporciona entradas dentro de la ventana de contexto de 128K y, cuando sea necesario, solicita salida JSON alineada con esquemas para un análisis fiable.
  4. Usa llamadas a herramientas para flujos de trabajo que requieran acciones externas (p. ej., búsqueda, consultas a bases de datos u otros pasos respaldados por herramientas), especialmente en escenarios de agentes multi-paso.

Casos de uso

  • Flujos de trabajo de codificación y edición: Autocompletado, sugerencias de siguiente edición, refactorizaciones y agentes de código interactivos donde las pausas pueden interrumpir el flujo del desarrollador.
  • Tareas en bucles agenticos: Sistemas que encadenan muchas llamadas de inferencia por trabajo (p. ej., toma de decisiones multi-paso), donde reducir la latencia por llamada permite más pasos asequibles.
  • Voz en tiempo real e interacción: Interfaces de voz y escenarios de HCI interactivos con presupuestos de latencia estrictos, donde un razonamiento más rápido mantiene la interacción similar al habla responsiva.
  • Pipelines de búsqueda y RAG: Flujos de recuperación multi-saltos y resumidos donde se añade razonamiento al bucle de búsqueda sin exceder restricciones de latencia.
  • Limpieza de transcripciones y otras tareas de transformación iterativa: Aplicaciones que necesitan transformaciones rápidas y consistentes con refinamiento en interfaces orientadas al usuario.

Preguntas frecuentes

¿Cómo se diferencia Mercury 2 de la decodificación típica de LLM?
Mercury 2 se describe como basado en difusión y genera respuestas mediante refinamiento paralelo en lugar de decodificación autoregresiva secuencial token por token.

¿Cuáles son las características de rendimiento declaradas para Mercury 2?
La página reporta generación >5x más rápida y 1,009 tokens/sec en GPUs NVIDIA Blackwell, junto con orientación sobre optimización para responsividad percibida por el usuario (incluyendo latencia p95 bajo alta concurrencia).

¿Qué longitud de contexto soporta Mercury 2?
Se indica contexto de 128K.

¿Puede Mercury 2 producir salidas estructuradas?
Sí. Se describe como compatible con salida JSON alineada con esquemas para respuestas estructuradas.

¿Soporta Mercury 2 el uso de herramientas?
La página indica que tiene uso nativo de herramientas, destinado a integrar herramientas en flujos de razonamiento.

Alternativas

  • LLM de razonamiento autoregresivos: Los LLM tradicionales token por token pueden ser más simples de integrar, pero generan secuencialmente, lo que puede aumentar la latencia en bucles multi-paso.
  • Otros enfoques de generación por difusión o no autoregresivos: Arquitecturas de modelos alternativas dirigidas a generación paralela pueden ofrecer objetivos de latencia similares, aunque los detalles de implementación y comportamiento de salida pueden variar.
  • LLM más pequeños optimizados para velocidad en uso interactivo: Modelos enfocados en baja latencia pueden sacrificar profundidad de razonamiento o controlabilidad en comparación con una configuración afinada para razonamiento como Mercury 2.
  • Estrategias de orquestación de agentes/RAG que minimizan llamadas: En lugar de cambiar la arquitectura del modelo, los equipos pueden reducir latencia reestructurando flujos de trabajo (p. ej., menos pasos de recuperación, caché o lotes), aunque puede limitar la cantidad de razonamiento por tarea.