UStackUStack
MiniCPM-o 4_5 icon

MiniCPM-o 4_5

MiniCPM-o 4_5는 비전·음성·텍스트를 아우르는 9B 옴니모달 모델로, 실시간 입력을 동시 처리하며 텍스트와 음성을 함께 생성합니다.

MiniCPM-o 4_5

MiniCPM-o 4_5란 무엇인가?

MiniCPM-o 4_5는 비전, 음성, 텍스트를 결합한 엔드투엔드 옴니모달 실시간 상호작용을 위한 오픈 모델입니다. 실시간 비디오 및 오디오 스트림과 함께 작동하도록 설계되어 모델이 상황을 인지하고 텍스트와 음성 출력을 동시에 생성할 수 있습니다.

이 모델은 SigLip2, Whisper-medium, CosyVoice2, Qwen3-8B 등의 구성 요소를 사용해 엔드투엔드 방식으로 구축되었으며, 총 9B 매개변수 크기를 가집니다. 핵심 목적은 풀더플렉스 멀티모달 스트리밍을 가능하게 하는 것으로, 지속적인 입력을 처리하면서 출력을 상호 차단 없이 생성합니다.

주요 기능

  • 풀더플렉스 멀티모달 실시간 스트리밍 (텍스트 + 음성): 연속적인 비디오 및 오디오 입력 스트림을 동시에 처리하면서 텍스트와 음성 출력을 병렬 생성하여 “보고, 듣고, 말하기”를 유연한 실시간 상호작용 루프에서 가능하게 합니다.
  • ~1Hz 결정 주파수에서의 사전적 상호작용: 입력 비디오/오디오를 지속적으로 모니터링하며 1Hz 주파수로 말할지 여부를 결정하여, 진행 중인 장면 이해에 기반한 사전적 동작(예: 리마인더나 코멘트 시작)을 지원합니다.
  • 단일 모델 내 지시 및 사고 모드: 동일한 모델 구성 내에서 “instruct”와 “thinking” 모드를 모두 지원하여 다양한 시나리오에서 효율성/성능 트레이드오프를 커버합니다.
  • 설정 가능한 음성의 실시간 양어 음성 대화: 실시간 영어/중국어 양어 음성 대화를 지원하며 음성 출력에 설정 가능한 음성을 포함합니다.
  • 참조 오디오를 통한 음성 복제 및 역할 놀이: 추론 중 간단한 참조 오디오 클립을 사용해 음성 복제와 역할 놀이를 가능하게 하며, 페이지에서 CosyVoice2 등의 도구를 능가하는 복제 성능을 명시합니다.
  • 멀티모달 입력을 위한 고해상도 및 비디오 처리량: 모든 종횡비에서 최대 180만 픽셀 고해상도 이미지와 최대 10fps 고프레임 비디오를 효율적으로 처리할 수 있습니다.
  • 영어 문서 OCR/문서 파싱: OmniDocBench에서 엔드투엔드 영어 문서 파싱 성능을 제공하며, 페이지에서 언급된 독점 모델 및 DeepSeek-OCR 2 등의 전문 OCR 도구를 능가한다고 합니다.
  • 다국어 지원 (30+ 언어): 30개 이상 언어의 다국어 지원을 포함합니다.
  • 로컬 사용을 위한 설정 가능한 추론 옵션: NVIDIA GPU에서 PyTorch 추론을 지원하며, llama.cpp 및 Ollama(CPU 추론)를 통한 엔드사이드 적응, 다양한 크기의 양자화 int4/GGUF 모델, 고처리량/메모리 효율적 추론을 위한 vLLM 및 SGLang, 통합 멀티칩 백엔드 플러그인인 FlagOS를 지원합니다.

MiniCPM-o 4_5 사용 방법

  1. 하드웨어에 맞는 추론 경로 선택: 간단한 가속을 위해 NVIDIA GPU에서 PyTorch를 사용하거나 CPU 추론을 위한 llama.cpp/Ollama 등의 엔드사이드 옵션을 선택합니다.
  2. 제공된 데모부터 시작: 페이지에서 오픈소스 웹 데모가 로컬 기기(GPU/PC, 예: MacBook)에서 풀더플렉스 멀티모달 실시간 스트리밍 경험을 제공한다고 명시합니다.
  3. 지원 백엔드 중 하나로 추론 실행: 처리량, 메모리 효율성 또는 컴팩트 배포 우선순위에 따라 vLLM, SGLang, 양자화 GGUF/int4 또는 FlagOS 플러그인을 사용합니다.

사용 사례

  • 휴대폰/워크스테이션에서의 풀더플렉스 실시간 튜터링 또는 지원: 연속 오디오/비디오 입력을 사용해 텍스트와 음성 출력을 포함한 대화형 실시간 응답을 지원합니다.
  • 실시간 미팅 또는 스튜디오 스타일 해설: 진행 중인 장면을 모니터링하고 순수 반응적 턴테이킹을 기다리지 않고 사전적 코멘트나 리마인더를 트리거합니다.
  • 음성 개인화가 포함된 양어 고객 지원: 실시간 영어/중국어 음성 대화를 활성화하고 음성 설정을 구성하며, 적절할 때 음성 복제/역할 놀이를 선택적으로 사용합니다.
  • 실시간 문서 캡처 및 파싱: 고해상도 이미지를 입력해 엔드투엔드 영어 문서 파싱을 수행하며, OCR 전용 워크플로우 대신 문서로부터 구조화된 출력을 목표로 합니다.
  • 다국어 장면 이해: 모델의 30개 이상 언어 지원을 활용해 시각 입력과 함께 다국어 지시나 응답을 처리합니다.

FAQ

  • MiniCPM-o 4_5는 어떤 모달리티를 지원하나요? 페이지에서 비전(이미지/비디오), 음성(양국어 실시간 대화), 텍스트 지원을 설명하며, 입력 스트림과 동시에 출력 생성이 가능한 풀 듀플렉스 실시간 스트리밍을 지원합니다.

  • 새로운 오디오/비디오를 받는 동안 음성을 생성할 수 있나요? 네. 모델의 풀 듀플렉스 스트리밍 메커니즘은 입력 스트림을 동시에 처리하며 텍스트와 음성 출력을 상호 차단 없이 병렬 생성한다고 설명되어 있습니다.

  • MiniCPM-o 4_5에 음성 커스터마이징 기능이 포함되나요? 네. 영어/중국어에 대한 구성 가능한 음성을 지원하며, 추론 시 참조 오디오 클립을 사용한 음성 클로닝과 롤플레이를 포함합니다.

  • 모델을 로컬에서 실행할 때 지원되는 하드웨어 옵션은 무엇인가요? 페이지에서 NVIDIA GPU上的 PyTorch 추론, llama.cpp와 Ollama를 통한 CPU 추론, 양자화된 int4 GGUF 변형, vLLM과 SGLang을 포함한 서빙/추론 프레임워크, 다중 칩 백엔드를 위한 FlagOS를 나열합니다.

  • 어떤 종류의 시각 입력을 처리할 수 있나요? 페이지에 명시된 대로 최대 180만 픽셀 고해상도 이미지와 임의 종횡비 10fps 고프레임 비디오를 지원합니다.

대안

  • 다른 멀티모달 스트리밍/실시간 LLM 시스템: 풀 듀플렉스 옴니모달 모델 대신 별도 파이프라인(예: 비전-텍스트 + ASR + TTS)을 사용하는 솔루션들이 있습니다. 워크플로가 다르기 때문에 여기에 설명된 엔드투엔드 동시 입력/출력 스트리밍 동작을 제공하지 않을 수 있습니다.
  • 통합 비전 스트리밍이 없는 음성 중심 어시스턴트: 음성 우선 음성 어시스턴트는 실시간 대화를 처리할 수 있지만, 연속 비전 입력을 동시 음성/텍스트 출력과 동일한 엔드투엔드 방식으로 결합하지 않을 수 있습니다.
  • 로컬 OCR/문서 파싱 도구체인: 문서 파싱 작업의 경우 전용 OCR/문서 추출 도구가 더 전문적일 수 있습니다. 그러나 일반적으로 텍스트 추출에 초점을 맞추며, 더 넓은 옴니모달 실시간 상호작용(비전 + 음성 + 사전 행동)을 다루지 않습니다.