UStackUStack
Mercury 2 favicon

Mercury 2

Mercury 2 ist das weltweit schnellste Reasoning-Sprachmodell, das eine auf Diffusion basierende Architektur nutzt, um Reasoning-Qualität bei sofortigen Produktions-KI-Geschwindigkeiten zu liefern.

Mercury 2

Was ist Mercury 2?

Einführung in Mercury 2: Das weltweit schnellste Reasoning-Sprachmodell

Was ist Mercury 2?

Mercury 2 ist ein revolutionäres Reasoning Large Language Model (LLM), das von Inception entwickelt wurde, um die Latenzengpässe, die moderne Produktions-KI-Anwendungen plagen, zu beseitigen. Im Gegensatz zu herkömmlichen Modellen, die auf langsame, sequentielle autoregressive Dekodierung (ein Token nach dem anderen) angewiesen sind, verwendet Mercury 2 eine neuartige, auf Diffusion basierende Architektur. Dies ermöglicht die Generierung von Antworten durch parallele Verfeinerung, wobei das Endergebnis in nur wenigen Schritten erreicht wird. Der Kernzweck von Mercury 2 ist es, Produktions-KI augenblicklich erscheinen zu lassen und sicherzustellen, dass komplexe, mehrstufige Reasoning-Aufgaben innerhalb von Echtzeit-Latenzbudgets ausgeführt werden können, ohne die Qualität zu beeinträchtigen.

Dieser grundlegende Wandel in der Dekodierungsmethodik führt zu einer Leistung, die auf modernen NVIDIA GPUs über 1.000 Tokens pro Sekunde übertrifft, was es mehr als 5-mal schneller macht als viele führende geschwindigkeitsoptimierte Modelle. Durch die Entkopplung von qualitativ hochwertigem Reasoning von hoher Latenz definiert Mercury 2 die Qualitäts-Geschwindigkeits-Kurve neu und macht hochentwickelte KI für latenzempfindliche Benutzererlebnisse zugänglich, bei denen jede Millisekunde zählt.

Hauptmerkmale

Mercury 2 zeichnet sich durch seine architektonische Innovation und seine Leistungsmetriken aus:

  • Auf Diffusion basierendes Reasoning: Generiert Tokens in parallelen Verfeinerungsschritten anstatt sequenziell, was zu dramatisch schnelleren Inferenzgeschwindigkeiten führt.
  • Außergewöhnliche Geschwindigkeit: Erreicht über 1.009 Tokens/Sek. auf NVIDIA Blackwell GPUs und gewährleistet Reaktionsfähigkeit auch bei hoher Nebenläufigkeit.
  • Reasoning-Grade Qualität: Liefert Qualität, die mit führenden geschwindigkeitsoptimierten Modellen konkurriert, während gleichzeitig Echtzeit-Latenz beibehalten wird.
  • Abstimmbares Reasoning (Tunable Reasoning): Bietet Flexibilität bei der Anpassung des für bestimmte Aufgaben erforderlichen Reasoning-Niveaus.
  • Großes Kontextfenster: Unterstützt eine 128K Kontext-Länge, was komplexe Dokumentenverarbeitung und Langform-Interaktion ermöglicht.
  • Natives Tool-Use: Eingebaute Fähigkeiten zur Interaktion mit externen Systemen und Funktionen.
  • Schema-abgestimmte JSON-Ausgabe: Gewährleistet zuverlässige, strukturierte Datengenerierung, die für die Integration in Software-Pipelines entscheidend ist.
  • Optimiertes Latenzprofil: Konzentriert sich auf die Verbesserung der p95-Latenz und des konsistenten Turn-to-Turn-Verhaltens unter Last.

Wie man Mercury 2 verwendet

Der Einstieg mit Mercury 2 beinhaltet die Integration in Ihre bestehenden KI-Workflows, wobei der Fokus auf Anwendungen liegt, bei denen Geschwindigkeit und komplexes Reasoning kritisch sind. Da Mercury 2 für den Produktionseinsatz konzipiert ist, greifen Benutzer typischerweise über einen von Inception bereitgestellten API-Endpunkt darauf zu.

  1. Zugriff und Integration: Holen Sie sich API-Zugangsdaten für den Mercury 2-Dienst. Integrieren Sie den Endpunkt in Ihr Anwendungs-Backend, ähnlich wie bei der Integration eines anderen großen LLM-Anbieters.
  2. Prompt Engineering: Erstellen Sie Prompts, die seine Reasoning-Fähigkeiten nutzen. Für Aufgaben, die eine strukturierte Ausgabe erfordern (wie Datenextraktion oder Code-Generierung), verwenden Sie die Funktion für schema-abgestimmte JSON-Ausgabe.
  3. Parameterabstimmung: Passen Sie Parameter wie tunable_reasoning an, falls verfügbar, um die Rechenkosten gegen die für die spezifische Benutzerinteraktion erforderliche Analysetiefe abzuwägen.
  4. Bereitstellungsfokus: Setzen Sie Mercury 2 in latenzempfindlichen Schleifen ein, wie z. B. interaktive Coding-Assistenten, Echtzeit-Sprachagenten oder Agenten-Workflows mit hohem Volumen, bei denen sich akkumulierende Latenz negativ auf die Benutzererfahrung auswirkt.

Anwendungsfälle

Mercury 2 ist speziell positioniert, um Anwendungen zu revolutionieren, bei denen das Benutzererlebnis von sofortigem Feedback abhängt:

  1. Interaktives Codieren und Bearbeiten: Für Entwickler, die Tools wie Zed verwenden, bietet Mercury 2 Autovervollständigungs-, Next-Edit-Vorschläge und Refactoring-Funktionen, die sich augenblicklich anfühlen und sich nahtlos in den Denkprozess des Entwicklers integrieren, anstatt ihn zu unterbrechen.
  2. Agenten-Workflows im großen Maßstab: In komplexen Agentensystemen, die Dutzende von Inferenzaufrufen verketten (z. B. autonome Kampagnenoptimierung oder komplexe Datenverarbeitung), ermöglicht die geringe Latenz pro Aufruf von Mercury 2 die Ausführung von mehr Schritten innerhalb des Gesamtbudget der Aufgabe, was zu überlegenen Endergebnissen führt.
  3. Echtzeit-Sprache und HCI: Sprachschnittstellen erfordern die strengsten Latenzbudgets. Mercury 2 ermöglicht Reasoning-Level-Qualität in Sprachassistenten und konversationeller KI und stellt sicher, dass die Textgenerierung mit dem Tempo natürlicher Sprache Schritt hält, wodurch Interaktionen menschenähnlich und flüssig wirken.
  4. Low-Latency-Suche und RAG-Pipelines: Bei der Durchführung von Multi-Hop-Retrieval, Reranking und Zusammenfassung (RAG) ermöglicht Mercury 2 Entwicklern, anspruchsvolle Reasoning-Schritte in die Suchschleife einzufügen, ohne Millisekunden-Latenzziele zu überschreiten, und liefert sofortige, intelligente Antworten über proprietäre Daten.

FAQ

F: Wie wirkt sich der Geschwindigkeitsvorteil von Mercury 2 auf Kosteneinsparungen aus? A: Während der Hauptvorteil die Latenzreduzierung ist, bedeutet schnellere Inferenz, dass Aufgaben schneller abgeschlossen werden, was potenziell die für die jeweilige Anfrage benötigte Gesamtberechnungszeit reduziert. Dies kann insbesondere bei hohem Volumen zu niedrigeren Betriebskosten führen.

F: Ist Mercury 2 mit Standard-NVIDIA-Infrastruktur kompatibel? A: Ja, Mercury 2 ist für moderne NVIDIA GPUs optimiert und demonstriert insbesondere auf neuester Hardware wie NVIDIA Blackwell GPUs eine hohe Leistung, was die Skalierbarkeit für Unternehmensbereitstellungen gewährleistet.

F: Kann ich Mercury 2 für Aufgaben verwenden, die eine hohe sachliche Genauigkeit erfordern, wie z. B. juristische Zusammenfassungen? A: Mercury 2 liefert eine Reasoning-Grade-Qualität, die mit führenden Modellen konkurriert. Für Aufgaben, die eine hohe sachliche Verankerung erfordern, nutzen Sie sein großes 128K-Kontextfenster in Verbindung mit Retrieval-Augmented Generation (RAG)-Pipelines, um sicherzustellen, dass das Reasoning auf verifizierten, bereitgestellten Dokumenten basiert.

F: Wie sieht die Preisstruktur für Mercury 2 aus? A: Die veröffentlichte Preisstruktur ist sehr wettbewerbsfähig: 0,25 $ pro 1 Million Eingabetokens und 0,75 $ pro 1 Million Ausgabetokens, was den Fokus auf hochdurchsatzfähige Produktionsnutzung widerspiegelt.

F: Wie unterscheidet sich die Diffusionsarchitektur von der Standard-Transformer-Dekodierung? A: Standardmodelle dekodieren sequenziell (von links nach rechts, ein Token nach dem anderen). Mercury 2 verwendet Diffusion, um mehrere Tokens gleichzeitig zu generieren und den gesamten Entwurf über einige Schritte zu verfeinern, wodurch die Geschwindigkeitskurve durch die Vermeidung sequenzieller Engpässe grundlegend verändert wird.

Mercury 2 | UStack