Mercury 2 소개: 세계에서 가장 빠른 추론 언어 모델

Mercury 2란 무엇인가요?

Mercury 2는 Inception에서 개발한 혁신적인 추론 대규모 언어 모델(LLM)로, 최신 프로덕션 AI 애플리케이션을 괴롭히는 지연 시간 병목 현상을 제거하도록 특별히 설계되었습니다. 한 번에 하나의 토큰을 생성하는 느린 순차적 자기회귀 디코딩에 의존하는 기존 모델과 달리, Mercury 2는 새로운 확산 기반 아키텍처를 사용합니다. 이를 통해 몇 단계만으로 최종 출력으로 수렴하는 병렬 정제(parallel refinement)를 통해 응답을 생성할 수 있습니다. Mercury 2의 핵심 목적은 프로덕션 AI를 즉각적으로 느끼게 하여, 품질을 희생하지 않으면서도 복잡한 다단계 추론 작업을 실시간 지연 시간 예산 내에서 실행할 수 있도록 보장하는 것입니다.

이 디코딩 방법론의 근본적인 변화는 최신 NVIDIA GPU에서 초당 1,000 토큰을 초과하는 성능을 가져와, 속도에 최적화된 많은 주요 모델보다 훨씬 빠릅니다(5배 이상). 고품질 추론을 높은 지연 시간과 분리함으로써, Mercury 2는 품질-속도 곡선을 재정의하여 모든 밀리초가 중요한 지연 시간에 민감한 사용자 경험을 위해 정교한 AI를 접근 가능하게 만듭니다.

주요 기능

Mercury 2는 아키텍처 혁신과 성능 지표 덕분에 두각을 나타냅니다.

확산 기반 추론: 순차적이 아닌 병렬 정제 단계를 통해 토큰을 생성하여 추론 속도를 극적으로 향상시킵니다.
뛰어난 속도: NVIDIA Blackwell GPU에서 초당 1,009 토큰 이상을 달성하여 높은 동시성에서도 응답성을 보장합니다.
추론 등급 품질: 실시간 지연 시간을 유지하면서 속도에 최적화된 주요 모델과 경쟁할 수 있는 품질을 제공합니다.
조정 가능한 추론: 특정 작업에 필요한 추론 수준을 조정할 수 있는 유연성을 제공합니다.
대규모 컨텍스트 창: 128K 컨텍스트 길이를 지원하여 복잡한 문서 처리 및 장문 상호 작용이 가능합니다.
네이티브 도구 사용: 외부 시스템 및 함수와 상호 작용하기 위한 내장 기능입니다.
스키마 정렬 JSON 출력: 소프트웨어 파이프라인 통합에 중요한 안정적인 구조화된 데이터 생성을 보장합니다.
최적화된 지연 시간 프로필: 부하 상태에서 p95 지연 시간 및 일관된 턴 투 턴 동작 개선에 중점을 둡니다.

Mercury 2 사용 방법

Mercury 2 사용을 시작하려면 속도와 복잡한 추론이 중요한 애플리케이션에 기존 AI 워크플로우에 통합하는 것이 포함됩니다. Mercury 2는 프로덕션 배포를 위해 설계되었으므로, 사용자는 일반적으로 Inception에서 제공하는 API 엔드포인트를 통해 액세스합니다.

액세스 및 통합: Mercury 2 서비스에 대한 API 액세스 자격 증명을 얻습니다. 다른 주요 LLM 제공업체를 통합하는 것과 유사하게 애플리케이션 백엔드에 엔드포인트를 통합합니다.
프롬프트 엔지니어링: 추론 기능을 활용하는 프롬프트를 작성합니다. 구조화된 출력(데이터 추출 또는 코드 생성 등)이 필요한 작업의 경우 스키마 정렬 JSON 출력 기능을 활용합니다.
매개변수 조정: 특정 사용자 상호 작용에 필요한 분석 깊이와 계산 비용의 균형을 맞추기 위해 사용 가능한 경우 tunable_reasoning과 같은 매개변수를 조정합니다.
배포 초점: 대기 시간이 민감한 루프(예: 대화형 코딩 도우미, 실시간 음성 에이전트 또는 복합 지연 시간이 사용자 경험에 해로운 대용량 에이전트 워크플로우)에 Mercury 2를 배포합니다.

사용 사례

Mercury 2는 사용자 경험이 즉각적인 피드백에 의해 결정되는 애플리케이션을 혁신하기 위해 특별히 배치되었습니다.

대화형 코딩 및 편집: Zed와 같은 도구를 사용하는 개발자의 경우, Mercury 2는 중단이 아닌 개발자의 사고 과정에 원활하게 통합되는 즉각적인 자동 완성, 다음 편집 제안 및 리팩토링 기능을 제공합니다.
대규모 에이전트 워크플로우: 수십 개의 추론 호출을 연결하는 복잡한 에이전트 시스템(예: 자율 캠페인 최적화 또는 복잡한 데이터 처리)에서 Mercury 2의 낮은 호출당 지연 시간은 전체 작업 예산 내에서 더 많은 단계를 실행할 수 있게 하여 우수한 최종 결과를 가져옵니다.
실시간 음성 및 HCI: 음성 인터페이스는 가장 엄격한 지연 시간 예산을 요구합니다. Mercury 2는 음성 도우미 및 대화형 AI에서 추론 수준의 품질을 가능하게 하여 텍스트 생성이 자연스러운 음성 운율 속도를 따라잡도록 보장하고 상호 작용을 인간적이고 유연하게 만듭니다.
저지연 검색 및 RAG 파이프라인: 다중 홉 검색, 재순위 지정 및 요약(RAG)을 수행할 때, Mercury 2를 사용하면 개발자가 검색 루프에 정교한 추론 단계를 주입하더라도 하위 초 지연 시간 목표를 초과하지 않고도 독점 데이터에 대한 즉각적이고 지능적인 답변을 제공할 수 있습니다.

FAQ

Q: Mercury 2의 속도 이점은 비용 절감으로 어떻게 이어지나요? A: 주요 이점은 지연 시간 감소이지만, 추론 속도가 빠르면 요청당 필요한 총 컴퓨팅 시간이 줄어들어 특히 대량 트래픽에서 운영 비용을 절감할 수 있습니다.

Q: Mercury 2는 표준 NVIDIA 인프라와 호환되나요? A: 예, Mercury 2는 최신 NVIDIA GPU, 특히 NVIDIA Blackwell GPU에서 높은 성능을 시연하도록 최적화되어 있어 엔터프라이즈 배포를 위한 확장성을 보장합니다.

Q: 법률 요약과 같이 높은 사실적 정확도가 필요한 작업에 Mercury 2를 사용할 수 있나요? A: Mercury 2는 주요 모델과 경쟁할 수 있는 추론 등급의 품질을 제공합니다. 높은 사실적 근거가 필요한 작업의 경우, 검색 증강 생성(RAG) 파이프라인과 함께 대규모 128K 컨텍스트 창을 활용하여 추론이 검증된 제공 문서에 기반하도록 보장합니다.

Q: Mercury 2의 가격 책정 구조는 어떻게 되나요? A: 게시된 가격 구조는 매우 경쟁력이 있습니다. 입력 토큰 100만 개당 $0.25, 출력 토큰 100만 개당 $0.75로, 높은 처리량의 프로덕션 사용에 중점을 둡니다.

Q: 확산 아키텍처는 표준 트랜스포머 디코딩과 어떻게 다른가요? A: 표준 모델은 순차적으로(왼쪽에서 오른쪽으로, 한 번에 하나의 토큰) 디코딩합니다. Mercury 2는 확산을 사용하여 여러 토큰을 동시에 생성하고 몇 단계에 걸쳐 전체 초안을 정제하여 순차적 병목 현상을 피함으로써 속도 곡선을 근본적으로 변경합니다.