UStackUStack
Gemini Embedding 2 icon

Gemini Embedding 2

Gemini Embedding 2는 텍스트·이미지·영상·오디오·문서를 단일 임베딩 공간으로 매핑하는 완전 멀티모달 임베딩 모델. Gemini API·Vertex AI 공개 프리뷰 제공

Gemini Embedding 2

Gemini Embedding 2란?

Gemini Embedding 2는 Gemini 아키텍처 기반의 Google 최초 완전 멀티모달 임베딩 모델입니다. 텍스트, 이미지, 영상, 오디오, 문서를 단일 임베딩 공간으로 매핑해 여러 미디어 유형에 걸친 검색 및 분류 워크플로를 지원합니다.

이 모델은 100개 이상 언어의 의미를 처리하도록 설계되었으며, 다양한 입력 미디어에 대해 단일 벡터 표현을 생성해 멀티모달 파이프라인을 간소화합니다.

주요 기능

  • 완전 멀티모달 입력 지원 (텍스트, 이미지, 영상, 오디오, 문서): 여러 미디어 유형에 대한 임베딩을 생성해 혼합 콘텐츠 데이터를 검색·분류할 수 있습니다.
  • 단일 통합 임베딩 공간: 텍스트, 이미지, 영상, 오디오, 문서를 동일 공간에 임베딩해 멀티모달 검색 및 분석을 지원합니다.
  • 단일 요청 내 교차 멀티모달 이해: 여러 모달리티를 함께 입력받음 (예: 이미지 + 텍스트)으로 서로 다른 미디어 간 관계를 포착합니다.
  • 대용량 모달리티 제한: 텍스트 최대 8192 입력 토큰, 요청당 최대 6개 이미지 (PNG/JPEG), 최대 120초 영상 (MP4/MOV), 중간 전사 없이 네이티브 오디오 임베딩 지원.
  • PDF 문서 임베딩: 콘텐츠를 다른 형식으로 변환하지 않고 최대 6페이지 PDF를 직접 임베딩합니다.
  • Matryoshka Representation Learning (MRL)을 통한 유연한 임베딩 출력 차원: 기본 3072 차원에서 축소 가능; Google은 최고 품질을 위해 3072, 1536, 768 권장.

Gemini Embedding 2 사용 방법

Gemini Embedding 2는 Gemini APIVertex AI를 통해 공개 프리뷰로 제공됩니다. 시작하려면 Google이 제공하는 대화형 Gemini APIVertex AI Colab 노트북을 사용해 입력에 대한 임베딩을 생성하세요.

빠른 실험을 위해 Google은 검색 스타일 작업에서 임베딩 작동 방식을 테스트할 수 있는 경량 멀티모달 의미 검색 데모도 제공합니다.

사용 사례

  • 멀티모달 의미 검색: 사용자 쿼리 모달리티가 혼합될 때 (예: 텍스트로 이미지·오디오·문서가 포함된 인덱스 검색) 관련 항목 검색.
  • 미디어 간 RAG (검색 증강 생성): 임베딩으로 이종 소스(문서 + 미디어)에서 컨텍스트를 가져와 후속 생성 워크플로에 입력.
  • 혼합 콘텐츠 감성 분석: 미디어를 임베딩해 텍스트와 이미지 등 모달리티가 포함된 분류·클러스터링 파이프라인 지원.
  • 이종 데이터셋 클러스터링: 미디어 유형 간 통합 표현으로 서로 다른 형식의 관련 항목 그룹화.
  • 분석을 위한 문서 + 미디어 이해: 최대 6페이지 PDF를 임베딩하고 다른 모달리티와 결합해 단일 임베딩 파이프라인으로 후속 검색·분류 지원.

자주 묻는 질문

Gemini Embedding 2는 텍스트 전용인가요?

아니요. 텍스트, 이미지, 영상, 오디오, 문서를 단일 임베딩 공간으로 매핑하는 완전 멀티모달 임베딩 모델로 설계되었습니다.

공개 프리뷰 지원 플랫폼은?

Google은 Gemini Embedding 2가 Gemini APIVertex AI를 통해 공개 프리뷰로 제공된다고 밝혔습니다.

모델이 지원하는 입력 크기는?

페이지에 텍스트 8192 토큰, 요청당 최대 6개 이미지, 최대 120초 영상 (MP4/MOV), PDF 최대 6페이지 등 모달리티 제한이 나와 있습니다. 오디오는 전사 없이 네이티브로 임베딩됩니다.

여러 모달리티를 함께 보낼 수 있나요?

네. 모델은 교차 입력을 네이티브로 이해하므로 단일 요청에 여러 모달리티(예: 이미지 + 텍스트)를 전달할 수 있습니다.

임베딩 차원을 변경할 수 있나요?

네. Gemini Embedding 2는 Matryoshka Representation Learning (MRL)을 사용해 기본 3072 차원에서 축소 가능하며, Google은 최고 품질을 위해 3072, 1536, 768을 권장합니다.

대안

  • 텍스트 전용 임베딩 모델: 앱이 텍스트만 사용한다면 텍스트 전용 모델이 더 간단할 수 있음; 다만 이미지·영상·오디오·문서를 동일 공간에 기본 지원하지 않음.
  • 모달리티별 별도 임베딩: 일부 워크플로우는 모달리티마다 다른 임베딩 모델을 사용해 검색 시 결과를 결합; 단일 통합 멀티모달 임베딩 공간보다 복잡할 수 있음.
  • 기타 멀티모달 임베딩 방식: 다른 솔루션 유형도 여러 미디어 타입 임베딩을 생성할 수 있으나, Gemini Embedding 2는 단일 임베딩 공간과 상호작용 멀티모달 요청을 강조.
  • 임베딩 제공자 기반 인덱싱·검색 파이프라인: 이미 임베딩 기반 벡터 검색 설정이 있다면 멀티모달 임베딩 제공자/모델로 교체 고려; 핵심 차이는 완전 멀티모달 통합 임베딩 지원 여부.
Gemini Embedding 2 | UStack