Mercury 2
Mercury 2 est le modèle de langage de raisonnement le plus rapide au monde, utilisant une architecture basée sur la diffusion pour offrir une qualité de niveau raisonnement à des vitesses d'IA de production instantanées.
Qu'est-ce que Mercury 2 ?
Présentation de Mercury 2 : Le modèle de langage de raisonnement le plus rapide au monde
Qu'est-ce que Mercury 2 ?
Mercury 2 est un grand modèle de langage (LLM) de raisonnement révolutionnaire développé par Inception, conçu spécifiquement pour éliminer les goulots d'étranglement de latence qui affligent les applications d'IA de production modernes. Contrairement aux modèles traditionnels qui reposent sur un décodage autorégressif lent et séquentiel (un jeton à la fois), Mercury 2 emploie une nouvelle architecture basée sur la diffusion. Cela lui permet de générer des réponses par affinement parallèle, convergeant vers le résultat final en seulement quelques étapes. L'objectif principal de Mercury 2 est de rendre l'IA de production instantanée, garantissant que les tâches de raisonnement complexes et multi-étapes peuvent être exécutées dans les budgets de latence en temps réel sans sacrifier la qualité.
Ce changement fondamental dans la méthodologie de décodage se traduit par des performances dépassant 1 000 jetons par seconde sur les GPU NVIDIA modernes, ce qui le rend significativement plus rapide (plus de 5 fois) que de nombreux modèles leaders optimisés pour la vitesse. En découplant le raisonnement de haute qualité de la latence élevée, Mercury 2 redéfinit la courbe qualité-vitesse, rendant l'IA sophistiquée accessible pour les expériences utilisateur sensibles à la latence où chaque milliseconde compte.
Fonctionnalités Clés
Mercury 2 se distingue par son innovation architecturale et ses métriques de performance :
- Raisonnement basé sur la diffusion : Génère des jetons par étapes d'affinement parallèles plutôt que séquentiellement, entraînant des vitesses d'inférence considérablement plus rapides.
- Vitesse exceptionnelle : Atteint plus de 1 009 jetons/sec sur les GPU NVIDIA Blackwell, assurant la réactivité même sous forte concurrence.
- Qualité de niveau raisonnement : Offre une qualité compétitive avec les modèles leaders optimisés pour la vitesse tout en maintenant une latence en temps réel.
- Raisonnement réglable : Offre la flexibilité d'ajuster le niveau de raisonnement requis pour des tâches spécifiques.
- Grande fenêtre de contexte : Prend en charge une longueur de contexte de 128K, permettant le traitement de documents complexes et les interactions de longue durée.
- Utilisation d'outils native : Capacités intégrées pour interagir avec des systèmes et fonctions externes.
- Sortie JSON alignée sur le schéma : Assure une génération de données structurées fiable, cruciale pour l'intégration dans les pipelines logiciels.
- Profil de latence optimisé : Se concentre sur l'amélioration de la latence p95 et un comportement cohérent d'une interaction à l'autre sous charge.
Comment Utiliser Mercury 2
Commencer avec Mercury 2 implique de l'intégrer dans vos flux de travail d'IA existants, en se concentrant sur les applications où la vitesse et le raisonnement complexe sont critiques. Puisque Mercury 2 est conçu pour le déploiement en production, les utilisateurs y accèdent généralement via un point de terminaison API fourni par Inception.
- Accès et Intégration : Obtenez les informations d'identification d'accès à l'API pour le service Mercury 2. Intégrez le point de terminaison dans le backend de votre application, de manière similaire à l'intégration de tout autre fournisseur de LLM majeur.
- Ingénierie des invites (Prompt Engineering) : Élaborez des invites qui tirent parti de ses capacités de raisonnement. Pour les tâches nécessitant une sortie structurée (comme l'extraction de données ou la génération de code), utilisez la fonctionnalité de sortie JSON alignée sur le schéma.
- Ajustement des paramètres : Ajustez les paramètres tels que
tunable_reasoningsi disponible, pour équilibrer le coût de calcul par rapport à la profondeur d'analyse requise pour l'interaction utilisateur spécifique. - Orientation du déploiement : Déployez Mercury 2 dans des boucles sensibles à la latence, telles que les assistants de codage interactifs, les agents vocaux en temps réel ou les flux de travail agentiques à haut volume où la latence cumulative est préjudiciable à l'expérience utilisateur.
Cas d'Utilisation
Mercury 2 est spécifiquement positionné pour révolutionner les applications où l'expérience utilisateur est dictée par un retour d'information instantané :
- Codage et Édition Interactifs : Pour les développeurs utilisant des outils comme Zed, Mercury 2 fournit des capacités d'autocomplétion, de suggestion de prochaine édition et de refactorisation qui semblent instantanées, s'intégrant parfaitement au processus de pensée du développeur plutôt que de l'interrompre.
- Flux de travail Agentiques à l'Échelle : Dans les systèmes agentiques complexes qui enchaînent des dizaines d'appels d'inférence (par exemple, optimisation de campagne autonome ou traitement de données complexe), la faible latence par appel de Mercury 2 permet d'exécuter plus d'étapes dans le budget de tâche global, conduisant à des résultats finaux supérieurs.
- Voix en Temps Réel et IHM : Les interfaces vocales exigent les budgets de latence les plus stricts. Mercury 2 permet une qualité de niveau raisonnement dans les assistants vocaux et l'IA conversationnelle, garantissant que la génération de texte suit le rythme des cadences de parole naturelles, rendant les interactions fluides et humaines.
- Pipelines de Recherche et RAG à Faible Latence : Lors de l'exécution de recherches multi-sauts, de ré-ordonnancement et de résumé (RAG), Mercury 2 permet aux développeurs d'injecter des étapes de raisonnement sophistiquées dans la boucle de recherche sans dépasser les objectifs de latence sous la seconde, fournissant des réponses intelligentes immédiates sur des données propriétaires.
FAQ
Q : Comment l'avantage de vitesse de Mercury 2 se traduit-il en économies de coûts ? A : Bien que le principal avantage soit la réduction de la latence, une inférence plus rapide signifie que les tâches se terminent plus rapidement, réduisant potentiellement le temps de calcul total requis par requête, ce qui peut se traduire par des coûts opérationnels inférieurs, surtout à haut volume.
Q : Mercury 2 est-il compatible avec l'infrastructure NVIDIA standard ? A : Oui, Mercury 2 est optimisé pour les GPU NVIDIA modernes, démontrant spécifiquement des performances élevées sur le matériel le plus récent comme les GPU NVIDIA Blackwell, assurant l'évolutivité pour les déploiements en entreprise.
Q : Puis-je utiliser Mercury 2 pour des tâches nécessitant une grande précision factuelle, comme la synthèse juridique ? A : Mercury 2 offre une qualité de niveau raisonnement compétitive avec les modèles de pointe. Pour les tâches nécessitant un ancrage factuel élevé, utilisez sa grande fenêtre de contexte de 128K conjointement avec des pipelines de Génération Augmentée par Récupération (RAG) pour garantir que le raisonnement est basé sur des documents vérifiés et fournis.
Q : Quelle est la structure tarifaire de Mercury 2 ? A : La structure tarifaire publiée est très compétitive : 0,25 $ pour 1 Million de jetons d'entrée et 0,75 $ pour 1 Million de jetons de sortie, reflétant son orientation vers l'utilisation en production à haut débit.
Q : En quoi l'architecture de diffusion diffère-t-elle du décodage de transformateur standard ? A : Les modèles standards décode séquentiellement (de gauche à droite, un jeton à la fois). Mercury 2 utilise la diffusion pour générer plusieurs jetons simultanément et affine l'ébauche complète sur quelques étapes, changeant fondamentalement la courbe de vitesse en évitant les goulots d'étranglement séquentiels.
Alternatives
紫东太初
Un nouveau modèle multimodal de grande taille de nouvelle génération lancé par l'Institut d'automatisation de l'Académie chinoise des sciences et l'Institut de recherche en intelligence artificielle de Wuhan, prenant en charge des questions-réponses en plusieurs tours, la création de texte, la génération d'images et des tâches de questions-réponses complètes.
通义千问
Tongyi Qianwen est un modèle de langage AI de grande taille leader mondial, doté de diverses capacités, y compris la compréhension du langage naturel, la génération de texte, la compréhension visuelle et la compréhension audio.
PXZ AI
Une plateforme IA tout-en-un qui combine des outils pour l'image, la vidéo, la voix, l'écriture et le chat afin d'améliorer la créativité et la collaboration.
Grok AI Assistant
Grok est un assistant IA gratuit développé par xAI, conçu pour privilégier la vérité et l'objectivité tout en offrant des capacités avancées telles que l'accès à l'information en temps réel et la génération d'images.
AakarDev AI
AakarDev AI est une plateforme puissante qui simplifie le développement d'applications d'IA avec une intégration fluide des bases de données vectorielles, permettant un déploiement rapide et une évolutivité.
AI Song Maker
Créez des chansons libres de droits sans effort avec notre AI Song Maker et générateur de musique.