UStackUStack
Gemma 4 12B icon

Gemma 4 12B

Gemma 4 12B는 Google DeepMind의 멀티모달 AI 모델로, 노트북 로컬 추론에 적합하며 비전, 오디오, 텍스트를 하나의 아키텍처에서 지원합니다.

Gemma 4 12B

Gemma 4 12B란?

Gemma 4 12B는 Google DeepMind의 멀티모달 AI 모델로, 하나의 아키텍처에서 비전, 오디오, 텍스트 입력을 처리하면서 노트북에서 로컬로 실행되도록 설계되었습니다. 더 작은 엣지 중심의 Gemma 4 E4B 모델과 더 큰 26B Mixture of Experts 모델의 중간에 위치하며, 더 적은 메모리 사용량으로 고급 추론을 구현하는 데 중점을 둡니다.

이 모델은 인코더가 없는 설계를 사용합니다. 즉, 시각 및 오디오 입력이 별도의 멀티모달 인코더를 거치지 않고 언어 모델 백본으로 직접 들어갑니다. Google에 따르면 이 접근 방식은 지연 시간과 메모리 사용을 줄이는 동시에, 16GB VRAM 또는 unified memory를 갖춘 소비자용 하드웨어에서 에이전트형 워크플로와 로컬 추론을 지원하도록 설계되었습니다. Gemma 4 12B는 Apache 2.0 라이선스로 공개되며, 로컬 도구나 클라우드 인프라를 사용해 멀티모달 애플리케이션을 만들고 배포하려는 개발자를 위한 모델입니다.

주요 기능

  • 통합 멀티모달 아키텍처: 별도의 멀티모달 인코더 없이 LLM 백본에서 비전과 오디오를 직접 처리해 파이프라인을 단순화하고 오버헤드를 줄입니다.
  • 네이티브 오디오 입력 지원: Gemma 4 12B는 네이티브 오디오 입력을 지원하는 최초의 중형 Gemma 4 모델로 설명되며, 오디오+텍스트 워크플로에 적합합니다.
  • 로컬 노트북 배포: Google은 이 모델이 16GB VRAM 또는 unified memory가 있는 노트북에서 실행할 만큼 작다고 밝히며, 오프라인 및 온디바이스 실험 범위를 넓힙니다.
  • 고급 추론 성능: 이 모델은 더 큰 26B MoE 모델에 근접한 벤치마크 성능에 도달하는 것으로 알려져 있으며, 다단계 추론과 에이전트형 워크플로를 지원합니다.
  • Multi-Token Prediction drafters: 내장된 MTP drafters는 생성 중 지연 시간을 줄이기 위한 것입니다.
  • 오픈 공개 및 생태계 지원: 가중치는 Hugging Face와 Kaggle에서 제공되며, Hugging Face Transformers, llama.cpp, MLX, SGLang, vLLM, Unsloth 같은 도구 전반에서 지원됩니다.

Gemma 4 12B 사용 방법

개발자는 LM Studio, Ollama, Google AI Edge Gallery App, Google AI Edge Eloquent 앱, LiteRT-LM CLI 같은 로컬 앱과 도구에서 모델을 먼저 시험해 볼 수 있습니다. 또한 Hugging Face 또는 Kaggle에서 사전 학습 및 instruction-tuned 체크포인트를 다운로드한 뒤, 개발자 문서와 빠른 시작 노트북을 확인할 수 있습니다.

그다음 워크플로에 따라 모델을 로컬 추론 파이프라인에 통합하거나 효율성을 위해 미세 조정할 수 있습니다. 프로덕션 배포를 위해 Google은 Gemini Enterprise Agent Platform Model Garden, Cloud Run, GKE 같은 클라우드 옵션도 안내합니다.

사용 사례

  • 로컬 멀티모달 어시스턴트: 데이터를 원격 서비스로 보내지 않고도 노트북에서 추론을 유지하면서 텍스트, 이미지, 오디오를 처리하는 온디바이스 어시스턴트를 구축합니다.
  • 에이전트형 워크플로: 입력을 바탕으로 추론하고, 작업을 계획하며, 로컬 또는 하이브리드 환경에서 도구처럼 동작하는 다단계 에이전트를 만듭니다.
  • 오디오 인식 애플리케이션: 메모 작성, 전사 보조 워크플로, 멀티모달 프롬프트처럼 오디오를 텍스트와 함께 해석해야 하는 애플리케이션을 프로토타입합니다.
  • 개발자 실험: 더 큰 배포로 넘어가기 전에 일반적인 로컬 도구를 사용해 모델 동작, 프롬프트 설계, 추론 파이프라인을 테스트합니다.
  • 프로덕션 배포 파이프라인: 로컬 개발을 관리형 엔드포인트나 확장 가능한 인프라로 전환해야 할 때 클라우드 기반 서빙 환경에서 모델을 사용합니다.

FAQ

Gemma 4 12B는 별도의 비전 및 오디오 인코더가 필요한가요?
아니요. Google은 이를 비전과 오디오 입력이 언어 모델 백본으로 직접 들어가는 인코더 없는 멀티모달 모델로 설명합니다.

Gemma 4 12B는 노트북에서 실행할 수 있나요?
네, Google은 이 모델이 16GB VRAM 또는 unified memory가 있는 하드웨어에서 로컬로 실행할 만큼 작다고 말합니다.

이 모델은 개발자에게 공개되어 있나요?
네. Apache 2.0 라이선스로 공개되며 가중치는 Hugging Face와 Kaggle에서 제공됩니다.

어떤 도구와 함께 사용할 수 있나요?
게시물에는 LM Studio, Ollama, Google AI Edge Gallery App, LiteRT-LM CLI, Hugging Face Transformers, llama.cpp, MLX, SGLang, vLLM, Unsloth 같은 로컬 및 개발 도구가 언급됩니다.

로컬 용도에만 제한되나요?
아니요. Google은 Gemini Enterprise Agent Platform Model Garden, Cloud Run, GKE를 포함한 Google Cloud 배포 옵션도 설명합니다.

대안

  • 더 작은 엣지 중심 멀티모달 모델: 매우 제한적인 디바이스 환경에 더 적합하며, 효율성을 위해 추론 깊이를 일부 포기할 수 있습니다.
  • 더 큰 멀티모달 모델: 더 많은 파라미터나 Mixture of Experts 아키텍처를 가진 모델은 더 높은 성능을 제공할 수 있지만, 일반적으로 더 많은 메모리와 인프라가 필요합니다.
  • 전통적인 인코더 기반 멀티모달 모델: 이미지와 오디오에 별도의 인코더를 사용하므로 아키텍처적으로 이해하기는 더 쉽지만, 보통 지연 시간과 메모리 오버헤드가 추가됩니다.
  • 클라우드 전용 멀티모달 API: 팀이 로컬 추론보다 관리형 서비스를 선호할 때 유용하지만, Gemma 4 12B에서 설명한 것과 같은 온디바이스 워크플로우는 제공하지 않습니다.
Gemma 4 12B | UStack