Mercury 2
Mercury 2 es el modelo de lenguaje de razonamiento más rápido del mundo, que utiliza una arquitectura basada en difusión para ofrecer calidad de nivel de razonamiento a velocidades de IA de producción instantáneas.
¿Qué es Mercury 2?
Presentando Mercury 2: El Modelo de Lenguaje de Razonamiento Más Rápido del Mundo
¿Qué es Mercury 2?
Mercury 2 es un revolucionario Modelo de Lenguaje Grande (LLM) de razonamiento desarrollado por Inception, diseñado específicamente para eliminar los cuellos de botella de latencia que afectan a las aplicaciones modernas de IA en producción. A diferencia de los modelos tradicionales que dependen de una decodificación autorregresiva lenta y secuencial (un token a la vez), Mercury 2 emplea una novedosa arquitectura basada en difusión. Esto le permite generar respuestas mediante refinamiento paralelo, convergiendo en el resultado final en solo unos pocos pasos. El propósito central de Mercury 2 es hacer que la IA de producción se sienta instantánea, asegurando que las tareas complejas de razonamiento de múltiples pasos puedan ejecutarse dentro de los presupuestos de latencia en tiempo real sin sacrificar la calidad.
Este cambio fundamental en la metodología de decodificación da como resultado un rendimiento que supera los 1,000 tokens por segundo en las GPU NVIDIA modernas, lo que lo hace significativamente más rápido (más de 5 veces) que muchos modelos líderes optimizados para la velocidad. Al desacoplar el razonamiento de alta calidad de la alta latencia, Mercury 2 redefine la curva de calidad-velocidad, haciendo que la IA sofisticada sea accesible para experiencias de usuario sensibles a la latencia donde cada milisegundo cuenta.
Características Clave
Mercury 2 se destaca debido a su innovación arquitectónica y métricas de rendimiento:
- Razonamiento Basado en Difusión: Genera tokens en pasos de refinamiento paralelos en lugar de secuencialmente, lo que conduce a velocidades de inferencia drásticamente más rápidas.
- Velocidad Excepcional: Alcanza más de 1,009 tokens/seg en GPU NVIDIA Blackwell, asegurando capacidad de respuesta incluso bajo alta concurrencia.
- Calidad de Nivel de Razonamiento: Ofrece una calidad competitiva con los modelos líderes optimizados para la velocidad mientras mantiene la latencia en tiempo real.
- Razonamiento Ajustable (Tunable Reasoning): Ofrece flexibilidad para ajustar el nivel de razonamiento requerido para tareas específicas.
- Ventana de Contexto Grande: Soporta una longitud de contexto de 128K, lo que permite el procesamiento de documentos complejos y la interacción de formato largo.
- Uso Nativo de Herramientas: Capacidades integradas para interactuar con sistemas y funciones externas.
- Salida JSON Alineada con Esquema: Asegura una generación de datos estructurados y confiable, crucial para la integración en pipelines de software.
- Perfil de Latencia Optimizado: Se centra en mejorar la latencia p95 y el comportamiento consistente de turno a turno bajo carga.
Cómo Usar Mercury 2
Comenzar con Mercury 2 implica integrarlo en sus flujos de trabajo de IA existentes, centrándose en aplicaciones donde la velocidad y el razonamiento complejo son críticos. Dado que Mercury 2 está diseñado para el despliegue en producción, los usuarios generalmente acceden a él a través de un endpoint de API proporcionado por Inception.
- Acceso e Integración: Obtenga las credenciales de acceso a la API para el servicio Mercury 2. Integre el endpoint en el backend de su aplicación, de manera similar a como integraría cualquier otro proveedor importante de LLM.
- Ingeniería de Prompts: Elabore prompts que aprovechen sus capacidades de razonamiento. Para tareas que requieren salida estructurada (como extracción de datos o generación de código), utilice la función de salida JSON alineada con el esquema.
- Ajuste de Parámetros: Ajuste parámetros como
tunable_reasoningsi están disponibles, para equilibrar el costo computacional con la profundidad del análisis requerido para la interacción específica del usuario. - Enfoque de Despliegue: Despliegue Mercury 2 en bucles sensibles a la latencia, como asistentes de codificación interactivos, agentes de voz en tiempo real o flujos de trabajo agenticos de alto volumen donde la latencia acumulativa es perjudicial para la experiencia del usuario.
Casos de Uso
Mercury 2 está posicionado específicamente para revolucionar las aplicaciones donde la experiencia del usuario está dictada por la retroalimentación instantánea:
- Codificación y Edición Interactiva: Para desarrolladores que utilizan herramientas como Zed, Mercury 2 proporciona autocompletado, sugerencias de próxima edición y capacidades de refactorización que se sienten instantáneas, integrándose perfectamente en el proceso de pensamiento del desarrollador en lugar de interrumpirlo.
- Flujos de Trabajo Agenticos a Escala: En sistemas agenticos complejos que encadenan docenas de llamadas de inferencia (por ejemplo, optimización autónoma de campañas o procesamiento complejo de datos), la baja latencia por llamada de Mercury 2 permite ejecutar más pasos dentro del presupuesto total de la tarea, lo que conduce a mejores resultados finales.
- Voz en Tiempo Real e HCI: Las interfaces de voz exigen los presupuestos de latencia más ajustados. Mercury 2 permite una calidad a nivel de razonamiento en asistentes de voz e IA conversacional, asegurando que la generación de texto siga el ritmo de las cadencias del habla natural, haciendo que las interacciones se sientan fluidas y humanas.
- Búsqueda de Baja Latencia y Pipelines RAG: Al realizar recuperación de múltiples saltos, reordenamiento y resumen (RAG), Mercury 2 permite a los desarrolladores inyectar pasos de razonamiento sofisticados en el bucle de búsqueda sin exceder los objetivos de latencia de subsegundo, proporcionando respuestas inteligentes e inmediatas sobre datos propietarios.
Preguntas Frecuentes (FAQ)
P: ¿Cómo se traduce la ventaja de velocidad de Mercury 2 en ahorro de costos? A: Si bien el beneficio principal es la reducción de la latencia, una inferencia más rápida significa que las tareas se completan más rápido, lo que potencialmente reduce el tiempo total de cómputo requerido por solicitud, lo que puede traducirse en menores costos operativos, especialmente a alto volumen.
P: ¿Es Mercury 2 compatible con la infraestructura estándar de NVIDIA? A: Sí, Mercury 2 está optimizado para GPU NVIDIA modernas, demostrando específicamente un alto rendimiento en el hardware más reciente como las GPU NVIDIA Blackwell, asegurando escalabilidad para implementaciones empresariales.
P: ¿Puedo usar Mercury 2 para tareas que requieren alta precisión fáctica, como el resumen legal? A: Mercury 2 ofrece una calidad de nivel de razonamiento competitiva con los modelos líderes. Para tareas que requieren una alta base fáctica, utilice su gran ventana de contexto de 128K junto con pipelines de Generación Aumentada por Recuperación (RAG) para asegurar que el razonamiento se base en documentos verificados proporcionados.
P: ¿Cuál es la estructura de precios para Mercury 2? A: La estructura de precios publicada es altamente competitiva: $0.25 por 1 Millón de tokens de entrada y $0.75 por 1 Millón de tokens de salida, lo que refleja su enfoque en el uso de producción de alto rendimiento.
P: ¿Cómo difiere la arquitectura de difusión de la decodificación estándar de transformadores? A: Los modelos estándar decodifican secuencialmente (de izquierda a derecha, un token a la vez). Mercury 2 utiliza la difusión para generar múltiples tokens simultáneamente y refina el borrador completo en unos pocos pasos, cambiando fundamentalmente la curva de velocidad al evitar los cuellos de botella secuenciales.
Alternatives
紫东太初
Un nuevo modelo grande multimodal de última generación lanzado por el Instituto de Automatización de la Academia China de Ciencias y el Instituto de Investigación de Inteligencia Artificial de Wuhan, que admite preguntas y respuestas en múltiples turnos, creación de texto, generación de imágenes y tareas de preguntas y respuestas integrales.
通义千问
Tongyi Qianwen es un modelo de lenguaje grande de IA líder mundial, que cuenta con diversas capacidades, incluyendo comprensión del lenguaje natural, generación de texto, comprensión visual y comprensión de audio.
PXZ AI
Una plataforma de IA todo en uno que combina herramientas para imagen, video, voz, escritura y chat para mejorar la creatividad y la colaboración.
Grok AI Assistant
Grok es un asistente de IA gratuito desarrollado por xAI, diseñado para priorizar la verdad y la objetividad al tiempo que ofrece capacidades avanzadas como acceso a información en tiempo real y generación de imágenes.
AakarDev AI
AakarDev AI es una plataforma poderosa que simplifica el desarrollo de aplicaciones de IA con integración fluida de bases de datos vectoriales, permitiendo un despliegue y escalabilidad rápidos.
AI Song Maker
Crea canciones libres de regalías sin esfuerzo con nuestro AI Song Maker y generador de música.