MiniCPM-o 4_5란 무엇인가?
MiniCPM-o 4_5는 비전, 음성, 텍스트를 결합한 엔드투엔드 옴니모달 실시간 상호작용을 위한 오픈 모델입니다. 실시간 비디오 및 오디오 스트림과 함께 작동하도록 설계되어 모델이 상황을 인지하고 텍스트와 음성 출력을 동시에 생성할 수 있습니다.
이 모델은 SigLip2, Whisper-medium, CosyVoice2, Qwen3-8B 등의 구성 요소를 사용해 엔드투엔드 방식으로 구축되었으며, 총 9B 매개변수 크기를 가집니다. 핵심 목적은 풀더플렉스 멀티모달 스트리밍을 가능하게 하는 것으로, 지속적인 입력을 처리하면서 출력을 상호 차단 없이 생성합니다.
주요 기능
- 풀더플렉스 멀티모달 실시간 스트리밍 (텍스트 + 음성): 연속적인 비디오 및 오디오 입력 스트림을 동시에 처리하면서 텍스트와 음성 출력을 병렬 생성하여 “보고, 듣고, 말하기”를 유연한 실시간 상호작용 루프에서 가능하게 합니다.
- ~1Hz 결정 주파수에서의 사전적 상호작용: 입력 비디오/오디오를 지속적으로 모니터링하며 1Hz 주파수로 말할지 여부를 결정하여, 진행 중인 장면 이해에 기반한 사전적 동작(예: 리마인더나 코멘트 시작)을 지원합니다.
- 단일 모델 내 지시 및 사고 모드: 동일한 모델 구성 내에서 “instruct”와 “thinking” 모드를 모두 지원하여 다양한 시나리오에서 효율성/성능 트레이드오프를 커버합니다.
- 설정 가능한 음성의 실시간 양어 음성 대화: 실시간 영어/중국어 양어 음성 대화를 지원하며 음성 출력에 설정 가능한 음성을 포함합니다.
- 참조 오디오를 통한 음성 복제 및 역할 놀이: 추론 중 간단한 참조 오디오 클립을 사용해 음성 복제와 역할 놀이를 가능하게 하며, 페이지에서 CosyVoice2 등의 도구를 능가하는 복제 성능을 명시합니다.
- 멀티모달 입력을 위한 고해상도 및 비디오 처리량: 모든 종횡비에서 최대 180만 픽셀 고해상도 이미지와 최대 10fps 고프레임 비디오를 효율적으로 처리할 수 있습니다.
- 영어 문서 OCR/문서 파싱: OmniDocBench에서 엔드투엔드 영어 문서 파싱 성능을 제공하며, 페이지에서 언급된 독점 모델 및 DeepSeek-OCR 2 등의 전문 OCR 도구를 능가한다고 합니다.
- 다국어 지원 (30+ 언어): 30개 이상 언어의 다국어 지원을 포함합니다.
- 로컬 사용을 위한 설정 가능한 추론 옵션: NVIDIA GPU에서 PyTorch 추론을 지원하며, llama.cpp 및 Ollama(CPU 추론)를 통한 엔드사이드 적응, 다양한 크기의 양자화 int4/GGUF 모델, 고처리량/메모리 효율적 추론을 위한 vLLM 및 SGLang, 통합 멀티칩 백엔드 플러그인인 FlagOS를 지원합니다.
MiniCPM-o 4_5 사용 방법
- 하드웨어에 맞는 추론 경로 선택: 간단한 가속을 위해 NVIDIA GPU에서 PyTorch를 사용하거나 CPU 추론을 위한 llama.cpp/Ollama 등의 엔드사이드 옵션을 선택합니다.
- 제공된 데모부터 시작: 페이지에서 오픈소스 웹 데모가 로컬 기기(GPU/PC, 예: MacBook)에서 풀더플렉스 멀티모달 실시간 스트리밍 경험을 제공한다고 명시합니다.
- 지원 백엔드 중 하나로 추론 실행: 처리량, 메모리 효율성 또는 컴팩트 배포 우선순위에 따라 vLLM, SGLang, 양자화 GGUF/int4 또는 FlagOS 플러그인을 사용합니다.
사용 사례
- 휴대폰/워크스테이션에서의 풀더플렉스 실시간 튜터링 또는 지원: 연속 오디오/비디오 입력을 사용해 텍스트와 음성 출력을 포함한 대화형 실시간 응답을 지원합니다.
- 실시간 미팅 또는 스튜디오 스타일 해설: 진행 중인 장면을 모니터링하고 순수 반응적 턴테이킹을 기다리지 않고 사전적 코멘트나 리마인더를 트리거합니다.
- 음성 개인화가 포함된 양어 고객 지원: 실시간 영어/중국어 음성 대화를 활성화하고 음성 설정을 구성하며, 적절할 때 음성 복제/역할 놀이를 선택적으로 사용합니다.
- 실시간 문서 캡처 및 파싱: 고해상도 이미지를 입력해 엔드투엔드 영어 문서 파싱을 수행하며, OCR 전용 워크플로우 대신 문서로부터 구조화된 출력을 목표로 합니다.
- 다국어 장면 이해: 모델의 30개 이상 언어 지원을 활용해 시각 입력과 함께 다국어 지시나 응답을 처리합니다.
FAQ
-
MiniCPM-o 4_5는 어떤 모달리티를 지원하나요? 페이지에서 비전(이미지/비디오), 음성(양국어 실시간 대화), 텍스트 지원을 설명하며, 입력 스트림과 동시에 출력 생성이 가능한 풀 듀플렉스 실시간 스트리밍을 지원합니다.
-
새로운 오디오/비디오를 받는 동안 음성을 생성할 수 있나요? 네. 모델의 풀 듀플렉스 스트리밍 메커니즘은 입력 스트림을 동시에 처리하며 텍스트와 음성 출력을 상호 차단 없이 병렬 생성한다고 설명되어 있습니다.
-
MiniCPM-o 4_5에 음성 커스터마이징 기능이 포함되나요? 네. 영어/중국어에 대한 구성 가능한 음성을 지원하며, 추론 시 참조 오디오 클립을 사용한 음성 클로닝과 롤플레이를 포함합니다.
-
모델을 로컬에서 실행할 때 지원되는 하드웨어 옵션은 무엇인가요? 페이지에서 NVIDIA GPU上的 PyTorch 추론, llama.cpp와 Ollama를 통한 CPU 추론, 양자화된 int4 GGUF 변형, vLLM과 SGLang을 포함한 서빙/추론 프레임워크, 다중 칩 백엔드를 위한 FlagOS를 나열합니다.
-
어떤 종류의 시각 입력을 처리할 수 있나요? 페이지에 명시된 대로 최대 180만 픽셀 고해상도 이미지와 임의 종횡비 10fps 고프레임 비디오를 지원합니다.
대안
- 다른 멀티모달 스트리밍/실시간 LLM 시스템: 풀 듀플렉스 옴니모달 모델 대신 별도 파이프라인(예: 비전-텍스트 + ASR + TTS)을 사용하는 솔루션들이 있습니다. 워크플로가 다르기 때문에 여기에 설명된 엔드투엔드 동시 입력/출력 스트리밍 동작을 제공하지 않을 수 있습니다.
- 통합 비전 스트리밍이 없는 음성 중심 어시스턴트: 음성 우선 음성 어시스턴트는 실시간 대화를 처리할 수 있지만, 연속 비전 입력을 동시 음성/텍스트 출력과 동일한 엔드투엔드 방식으로 결합하지 않을 수 있습니다.
- 로컬 OCR/문서 파싱 도구체인: 문서 파싱 작업의 경우 전용 OCR/문서 추출 도구가 더 전문적일 수 있습니다. 그러나 일반적으로 텍스트 추출에 초점을 맞추며, 더 넓은 옴니모달 실시간 상호작용(비전 + 음성 + 사전 행동)을 다루지 않습니다.
대안
Lemon
Lemon은 음성 명령을 작업으로 전환하는 AI 에이전트로, 앱 전환 없이 메시지 관리, 리서치, 업무 위임이 가능합니다.
PXZ AI
이미지, 비디오, 음성, 글쓰기 및 채팅 도구를 통합한 올인원 AI 플랫폼으로, 창의성과 협업을 향상시킵니다.
Gemma AI
Gemma AI는 중요한 작업, 약속 또는 마감일을 놓치지 않도록 개인화되고 지능적인 음성 알림으로 직접 전화를 거는 스마트 애플리케이션입니다.
Tavus
Tavus는 실시간 대면 상호작용을 위해 보고 듣고 반응하는 AI를 구축합니다. 맞춤 비디오 에이전트·디지털 트윈·AI 컴패니언을 API로 배포하세요.
AakarDev AI
AakarDev AI는 원활한 벡터 데이터베이스 통합을 통해 AI 애플리케이션 개발을 간소화하는 강력한 플랫폼으로, 신속한 배포와 확장성을 가능하게 합니다.
Sanota
Sanota로 목소리를 선명하고 아름다운 글로 바꿔 기억과 아이디어를 쉽게 기록하고, 빈 페이지 없이 시작하세요. 무료로 시작