Presentando Mercury 2: El Modelo de Lenguaje de Razonamiento Más Rápido del Mundo

¿Qué es Mercury 2?

Mercury 2 es un revolucionario Modelo de Lenguaje Grande (LLM) de razonamiento desarrollado por Inception, diseñado específicamente para eliminar los cuellos de botella de latencia que afectan a las aplicaciones modernas de IA en producción. A diferencia de los modelos tradicionales que dependen de una decodificación autorregresiva lenta y secuencial (un token a la vez), Mercury 2 emplea una novedosa arquitectura basada en difusión. Esto le permite generar respuestas mediante refinamiento paralelo, convergiendo en el resultado final en solo unos pocos pasos. El propósito central de Mercury 2 es hacer que la IA de producción se sienta instantánea, asegurando que las tareas complejas de razonamiento de múltiples pasos puedan ejecutarse dentro de los presupuestos de latencia en tiempo real sin sacrificar la calidad.

Este cambio fundamental en la metodología de decodificación da como resultado un rendimiento que supera los 1,000 tokens por segundo en las GPU NVIDIA modernas, lo que lo hace significativamente más rápido (más de 5 veces) que muchos modelos líderes optimizados para la velocidad. Al desacoplar el razonamiento de alta calidad de la alta latencia, Mercury 2 redefine la curva de calidad-velocidad, haciendo que la IA sofisticada sea accesible para experiencias de usuario sensibles a la latencia donde cada milisegundo cuenta.

Características Clave

Mercury 2 se destaca debido a su innovación arquitectónica y métricas de rendimiento:

Razonamiento Basado en Difusión: Genera tokens en pasos de refinamiento paralelos en lugar de secuencialmente, lo que conduce a velocidades de inferencia drásticamente más rápidas.
Velocidad Excepcional: Alcanza más de 1,009 tokens/seg en GPU NVIDIA Blackwell, asegurando capacidad de respuesta incluso bajo alta concurrencia.
Calidad de Nivel de Razonamiento: Ofrece una calidad competitiva con los modelos líderes optimizados para la velocidad mientras mantiene la latencia en tiempo real.
Razonamiento Ajustable (Tunable Reasoning): Ofrece flexibilidad para ajustar el nivel de razonamiento requerido para tareas específicas.
Ventana de Contexto Grande: Soporta una longitud de contexto de 128K, lo que permite el procesamiento de documentos complejos y la interacción de formato largo.
Uso Nativo de Herramientas: Capacidades integradas para interactuar con sistemas y funciones externas.
Salida JSON Alineada con Esquema: Asegura una generación de datos estructurados y confiable, crucial para la integración en pipelines de software.
Perfil de Latencia Optimizado: Se centra en mejorar la latencia p95 y el comportamiento consistente de turno a turno bajo carga.

Cómo Usar Mercury 2

Comenzar con Mercury 2 implica integrarlo en sus flujos de trabajo de IA existentes, centrándose en aplicaciones donde la velocidad y el razonamiento complejo son críticos. Dado que Mercury 2 está diseñado para el despliegue en producción, los usuarios generalmente acceden a él a través de un endpoint de API proporcionado por Inception.

Acceso e Integración: Obtenga las credenciales de acceso a la API para el servicio Mercury 2. Integre el endpoint en el backend de su aplicación, de manera similar a como integraría cualquier otro proveedor importante de LLM.
Ingeniería de Prompts: Elabore prompts que aprovechen sus capacidades de razonamiento. Para tareas que requieren salida estructurada (como extracción de datos o generación de código), utilice la función de salida JSON alineada con el esquema.
Ajuste de Parámetros: Ajuste parámetros como tunable_reasoning si están disponibles, para equilibrar el costo computacional con la profundidad del análisis requerido para la interacción específica del usuario.
Enfoque de Despliegue: Despliegue Mercury 2 en bucles sensibles a la latencia, como asistentes de codificación interactivos, agentes de voz en tiempo real o flujos de trabajo agenticos de alto volumen donde la latencia acumulativa es perjudicial para la experiencia del usuario.

Casos de Uso

Mercury 2 está posicionado específicamente para revolucionar las aplicaciones donde la experiencia del usuario está dictada por la retroalimentación instantánea:

Codificación y Edición Interactiva: Para desarrolladores que utilizan herramientas como Zed, Mercury 2 proporciona autocompletado, sugerencias de próxima edición y capacidades de refactorización que se sienten instantáneas, integrándose perfectamente en el proceso de pensamiento del desarrollador en lugar de interrumpirlo.
Flujos de Trabajo Agenticos a Escala: En sistemas agenticos complejos que encadenan docenas de llamadas de inferencia (por ejemplo, optimización autónoma de campañas o procesamiento complejo de datos), la baja latencia por llamada de Mercury 2 permite ejecutar más pasos dentro del presupuesto total de la tarea, lo que conduce a mejores resultados finales.
Voz en Tiempo Real e HCI: Las interfaces de voz exigen los presupuestos de latencia más ajustados. Mercury 2 permite una calidad a nivel de razonamiento en asistentes de voz e IA conversacional, asegurando que la generación de texto siga el ritmo de las cadencias del habla natural, haciendo que las interacciones se sientan fluidas y humanas.
Búsqueda de Baja Latencia y Pipelines RAG: Al realizar recuperación de múltiples saltos, reordenamiento y resumen (RAG), Mercury 2 permite a los desarrolladores inyectar pasos de razonamiento sofisticados en el bucle de búsqueda sin exceder los objetivos de latencia de subsegundo, proporcionando respuestas inteligentes e inmediatas sobre datos propietarios.

Preguntas Frecuentes (FAQ)

P: ¿Cómo se traduce la ventaja de velocidad de Mercury 2 en ahorro de costos? A: Si bien el beneficio principal es la reducción de la latencia, una inferencia más rápida significa que las tareas se completan más rápido, lo que potencialmente reduce el tiempo total de cómputo requerido por solicitud, lo que puede traducirse en menores costos operativos, especialmente a alto volumen.

P: ¿Es Mercury 2 compatible con la infraestructura estándar de NVIDIA? A: Sí, Mercury 2 está optimizado para GPU NVIDIA modernas, demostrando específicamente un alto rendimiento en el hardware más reciente como las GPU NVIDIA Blackwell, asegurando escalabilidad para implementaciones empresariales.

P: ¿Puedo usar Mercury 2 para tareas que requieren alta precisión fáctica, como el resumen legal? A: Mercury 2 ofrece una calidad de nivel de razonamiento competitiva con los modelos líderes. Para tareas que requieren una alta base fáctica, utilice su gran ventana de contexto de 128K junto con pipelines de Generación Aumentada por Recuperación (RAG) para asegurar que el razonamiento se base en documentos verificados proporcionados.

P: ¿Cuál es la estructura de precios para Mercury 2? A: La estructura de precios publicada es altamente competitiva: $0.25 por 1 Millón de tokens de entrada y $0.75 por 1 Millón de tokens de salida, lo que refleja su enfoque en el uso de producción de alto rendimiento.

P: ¿Cómo difiere la arquitectura de difusión de la decodificación estándar de transformadores? A: Los modelos estándar decodifican secuencialmente (de izquierda a derecha, un token a la vez). Mercury 2 utiliza la difusión para generar múltiples tokens simultáneamente y refina el borrador completo en unos pocos pasos, cambiando fundamentalmente la curva de velocidad al evitar los cuellos de botella secuenciales.

Mercury 2

Presentando Mercury 2: El Modelo de Lenguaje de Razonamiento Más Rápido del Mundo

¿Qué es Mercury 2?

Características Clave

Cómo Usar Mercury 2

Casos de Uso

Preguntas Frecuentes (FAQ)

Alternativas

紫东太初

PXZ AI

Slidesgo

Grok AI Assistant

Creativly

AakarDev AI