UStackUStack
Mercury 2 favicon

Mercury 2

Mercury 2 è il modello linguistico di ragionamento più veloce al mondo, che utilizza un'architettura basata sulla diffusione per offrire una qualità di livello di ragionamento a velocità di IA di produzione istantanee.

Mercury 2

Cos'è Mercury 2?

Presentazione di Mercury 2: Il modello linguistico di ragionamento più veloce al mondo

Cos'è Mercury 2?

Mercury 2 è un modello linguistico di grandi dimensioni (LLM) di ragionamento rivoluzionario sviluppato da Inception, progettato specificamente per eliminare i colli di bottiglia di latenza che affliggono le moderne applicazioni di IA in produzione. A differenza dei modelli tradizionali che si basano su una decodifica autoregressiva lenta e sequenziale (un token alla volta), Mercury 2 impiega una nuova architettura basata sulla diffusione. Ciò gli consente di generare risposte tramite affinamento parallelo, convergendo sull'output finale in pochi passaggi. Lo scopo principale di Mercury 2 è far sembrare istantanea l'IA in produzione, garantendo che i compiti di ragionamento complessi e multi-passo possano essere eseguiti entro i budget di latenza in tempo reale senza sacrificare la qualità.

Questo cambiamento fondamentale nella metodologia di decodifica si traduce in prestazioni superiori a 1.000 token al secondo sulle moderne GPU NVIDIA, rendendolo significativamente più veloce (oltre 5 volte) rispetto a molti modelli ottimizzati per la velocità leader. Disaccoppiando il ragionamento di alta qualità dall'alta latenza, Mercury 2 ridefinisce la curva qualità-velocità, rendendo l'IA sofisticata accessibile per esperienze utente sensibili alla latenza dove ogni millisecondo conta.

Caratteristiche Principali

Mercury 2 si distingue grazie alla sua innovazione architetturale e alle metriche di prestazione:

  • Ragionamento Basato sulla Diffusione: Genera token in passaggi di affinamento parallelo anziché sequenziali, portando a velocità di inferenza drasticamente più rapide.
  • Velocità Eccezionale: Raggiunge oltre 1.009 token/sec sulle GPU NVIDIA Blackwell, garantendo reattività anche sotto elevata concorrenza.
  • Qualità di Livello di Ragionamento: Offre una qualità competitiva con i modelli leader ottimizzati per la velocità mantenendo una latenza in tempo reale.
  • Ragionamento Sintonizzabile (Tunable Reasoning): Offre flessibilità per regolare il livello di ragionamento richiesto per compiti specifici.
  • Ampia Finestra di Contesto: Supporta una lunghezza di contesto di 128K, consentendo l'elaborazione di documenti complessi e interazioni di lunga durata.
  • Utilizzo Nativo degli Strumenti (Tool Use): Capacità integrate per interagire con sistemi e funzioni esterne.
  • Output JSON Allineato allo Schema: Assicura una generazione di dati strutturati e affidabile, cruciale per l'integrazione nelle pipeline software.
  • Profilo di Latenza Ottimizzato: Si concentra sul miglioramento della latenza p95 e sul comportamento coerente tra i turni sotto carico.

Come Usare Mercury 2

Iniziare con Mercury 2 comporta l'integrazione nei flussi di lavoro IA esistenti, concentrandosi sulle applicazioni in cui la velocità e il ragionamento complesso sono critici. Poiché Mercury 2 è progettato per l'implementazione in produzione, gli utenti vi accedono tipicamente tramite un endpoint API fornito da Inception.

  1. Accesso e Integrazione: Ottenere le credenziali di accesso API per il servizio Mercury 2. Integrare l'endpoint nel backend della propria applicazione, in modo simile all'integrazione di qualsiasi altro fornitore di LLM principale.
  2. Prompt Engineering: Creare prompt che sfruttino le sue capacità di ragionamento. Per i compiti che richiedono output strutturato (come l'estrazione di dati o la generazione di codice), utilizzare la funzione di output JSON allineato allo schema.
  3. Regolazione dei Parametri: Regolare parametri come tunable_reasoning, se disponibili, per bilanciare il costo computazionale rispetto alla profondità di analisi richiesta per la specifica interazione utente.
  4. Focus sull'Implementazione: Implementare Mercury 2 in cicli sensibili alla latenza, come assistenti di codifica interattivi, agenti vocali in tempo reale o flussi di lavoro agentici ad alto volume in cui la latenza cumulativa è dannosa per l'esperienza utente.

Casi d'Uso

Mercury 2 è posizionato specificamente per rivoluzionare le applicazioni in cui l'esperienza utente è dettata da un feedback istantaneo:

  1. Codifica e Modifica Interattiva: Per gli sviluppatori che utilizzano strumenti come Zed, Mercury 2 fornisce funzionalità di completamento automatico, suggerimenti per la modifica successiva e refactoring che sembrano istantanee, integrandosi perfettamente nel processo di pensiero dello sviluppatore anziché interromperlo.
  2. Flussi di Lavoro Agentici su Scala: Nei sistemi agentici complessi che concatenano decine di chiamate di inferenza (ad esempio, ottimizzazione autonoma di campagne o elaborazione complessa di dati), la bassa latenza per chiamata di Mercury 2 consente di eseguire più passaggi all'interno del budget complessivo del compito, portando a risultati finali superiori.
  3. Voce in Tempo Reale e HCI: Le interfacce vocali richiedono i budget di latenza più ristretti. Mercury 2 consente una qualità a livello di ragionamento negli assistenti vocali e nell'IA conversazionale, garantendo che la generazione di testo tenga il passo con le cadenze del parlato naturale, rendendo le interazioni fluide e simili a quelle umane.
  4. Pipeline di Ricerca e RAG a Bassa Latenza: Quando si eseguono passaggi multipli di recupero, riordino e riepilogo (RAG), Mercury 2 consente agli sviluppatori di inserire passaggi di ragionamento sofisticati nel ciclo di ricerca senza superare gli obiettivi di latenza sub-secondo, fornendo risposte intelligenti immediate su dati proprietari.

FAQ

D: In che modo il vantaggio di velocità di Mercury 2 si traduce in risparmi sui costi? A: Sebbene il beneficio principale sia la riduzione della latenza, un'inferenza più rapida significa che i compiti vengono completati più velocemente, riducendo potenzialmente il tempo di calcolo totale richiesto per richiesta, il che può tradursi in costi operativi inferiori, specialmente ad alto volume.

D: Mercury 2 è compatibile con l'infrastruttura NVIDIA standard? A: Sì, Mercury 2 è ottimizzato per le moderne GPU NVIDIA, dimostrando in particolare alte prestazioni sull'hardware più recente come le GPU NVIDIA Blackwell, garantendo scalabilità per le implementazioni aziendali.

D: Posso usare Mercury 2 per compiti che richiedono elevata accuratezza fattuale, come la sintesi legale? A: Mercury 2 offre una qualità di livello di ragionamento competitiva con i modelli leader. Per i compiti che richiedono un elevato ancoraggio fattuale, utilizza la sua ampia finestra di contesto di 128K in combinazione con pipeline di Generazione Aumentata dal Recupero (RAG) per garantire che il ragionamento sia basato su documenti verificati e forniti.

D: Qual è la struttura dei prezzi per Mercury 2? A: La struttura dei prezzi pubblicata è altamente competitiva: $0,25 per 1 milione di token di input e $0,75 per 1 milione di token di output, riflettendo la sua attenzione sull'uso in produzione ad alto throughput.

D: In che modo l'architettura di diffusione differisce dalla decodifica standard del trasformatore? A: I modelli standard decodificano sequenzialmente (da sinistra a destra, un token alla volta). Mercury 2 utilizza la diffusione per generare più token contemporaneamente e affina l'intera bozza in pochi passaggi, cambiando fondamentalmente la curva di velocità evitando i colli di bottiglia sequenziali.