UStackUStack
Mercury 2 icon

Mercury 2

Mercury 2는 Inception의 확산 기반 추론 LLM로, 에이전트·검색·추출처럼 반복 루프에서 지연이 누적되는 프로덕션 AI 워크플로에 최적화.

Mercury 2

Mercury 2란?

Mercury 2는 Inception이 출시한 추론 중심 대형 언어 모델(LLM)입니다. 핵심 목적은 프로덕션 AI 워크로드—특히 에이전트 단계, 검색 파이프라인, 추출 작업 같은 반복 “루프”에서 지연이 누적되는 경우—를 위한 빠른 추론 성능 제공입니다.

토큰을 왼쪽에서 오른쪽으로 하나씩 순차 생성하는 오토리그레시브 모델과 달리, Mercury 2는 실시간 추론을 위한 확산 기반 접근 방식을 사용합니다. 병렬 정제를 통해 여러 토큰을 동시에 생성하며 소수 단계로 수렴합니다.

주요 기능

  • 확산 기반 병렬 정제 생성: 순차 디코딩 대신 여러 토큰을 동시에 생성해 인터랙티브 시스템의 종단 간 지연을 낮춥니다.
  • 프로덕션 최적화 속도: NVIDIA Blackwell GPU에서 1,009 tokens/sec으로 보고되며, 부하 시 체감 대기 시간을 줄이도록 설계되었습니다.
  • 조정 가능한 추론: 의도된 속도–품질 균형을 유지하면서 추론 동작을 구성할 수 있습니다.
  • 128K 컨텍스트: 128K 컨텍스트 윈도우로 긴 입력을 지원합니다.
  • 내장 도구 사용: 추론 워크플로 일부로 도구 호출 기능을 기본 탑재했습니다.
  • 스키마 정렬 JSON 출력: 다운스트림 자동화를 위한 스키마에 맞춘 구조화 출력이 가능합니다.

Mercury 2 사용 방법

  1. 지연이 중요한 LLM 파이프라인에 Mercury 2 통합 (예: 에이전트 루프, 검색 증강 워크플로, 추출 작업).
  2. 품질 및 응답 시간 요구에 맞는 추론 설정 선택 (모델이 조정 가능한 추론을 지원).
  3. 128K 컨텍스트 윈도우 내 입력 제공하고 필요 시 안정적 파싱을 위한 스키마 정렬 JSON 출력 요청.
  4. 외부 작업이 필요한 워크플로에서 도구 호출 사용 (예: 검색, DB 조회, 기타 도구 기반 단계), 특히 다단계 에이전트 시나리오에서.

사용 사례

  • 코딩 및 편집 워크플로: 자동 완성, 다음 편집 제안, 리팩토링, 개발자 흐름을 방해하는 일시 정지 없는 인터랙티브 코드 에이전트.
  • 에이전트 루프 작업: 작업당 다중 추론 호출을 체인하는 시스템 (예: 다단계 의사결정)에서 호출당 지연 감소로 허용 가능한 단계 수 증가.
  • 실시간 음성 및 상호작용: 타이트한 지연 예산의 음성 인터페이스 및 인터랙티브 HCI 시나리오에서 빠른 추론으로 음성 같은 반응성 유지.
  • 검색 및 RAG 파이프라인: 지연 제약 초과 없이 검색 루프에 추론을 추가하는 다중 홉 검색 및 요약 워크플로.
  • 대화록 정리 및 기타 반복 변환 작업: 사용자 인터페이스에서 빠르고 일관된 변환 및 정제를 필요로 하는 애플리케이션.

자주 묻는 질문

Mercury 2는 일반 LLM 디코딩과 어떻게 다릅니까? Mercury 2는 순차적 토큰 단위 오토리그레시브 디코딩 대신 확산 기반으로 병렬 정제를 통해 응답을 생성합니다.

Mercury 2의 성능 특성은 무엇입니까? 페이지에서 >5x 빠른 생성과 NVIDIA Blackwell GPU에서 1,009 tokens/sec, 고부하 동시성 하 p95 지연 최적화 지침을 보고합니다.

Mercury 2가 지원하는 컨텍스트 길이는? 128K 컨텍스트입니다.

Mercury 2가 구조화 출력을 생성할 수 있습니까? 네. 구조화 응답을 위한 스키마 정렬 JSON 출력을 지원합니다.

Mercury 2가 도구 사용을 지원합니까? 페이지에서 추론 워크플로에 도구 통합을 위한 내장 도구 사용을 명시합니다.

대안

  • 오토리그레시브 추론 LLM: 전통적 토큰 단위 LLM은 통합이 간단할 수 있지만 순차 생성으로 다단계 루프에서 지연 증가.
  • 기타 확산 또는 비오토리그레시브 생성 접근: 병렬 생성 목표의 대안 아키텍처지만 구현 세부 및 출력 동작이 다를 수 있음.
  • 인터랙티브용 소형 속도 최적화 LLM: 저지연 중심 모델은 Mercury 2 같은 추론 튜닝 설정 대비 추론 깊이나 제어성을 희생할 수 있음.
  • 호출 최소화 에이전트/RAG 오케스트레이션 전략: 모델 아키텍처 변경 대신 워크플로 재구성 (예: 검색 단계 감소, 캐싱, 배칭)으로 지연 줄임, 하지만 작업당 추론량 제한될 수 있음.