UStackUStack
MiniCPM-o 4_5 icon

MiniCPM-o 4_5

MiniCPM-o 4_5 é um modelo omni-modal de 9B para interação ao vivo full-duplex com visão, fala e texto, gerando texto e fala simultâneos.

MiniCPM-o 4_5

O que é MiniCPM-o 4_5?

MiniCPM-o 4_5 é um modelo aberto para interação ao vivo omni-modal end-to-end que combina visão, fala e texto. Ele é projetado para trabalhar com fluxos de vídeo e áudio em tempo real, permitindo que o modelo perceba o que está acontecendo e responda com texto e fala simultâneos.

O modelo é construído de forma end-to-end usando componentes como SigLip2, Whisper-medium, CosyVoice2 e Qwen3-8B, com tamanho total declarado de 9B parâmetros. Seu propósito principal é habilitar streaming multimodal full-duplex — processando entradas contínuas enquanto gera saídas sem bloqueio mútuo.

Principais Recursos

  • Streaming ao vivo multimodal full-duplex (texto + fala): Processa fluxos contínuos de vídeo e áudio simultaneamente enquanto gera saídas de texto e fala concorrentes, permitindo “ver, ouvir e falar” em um loop de interação fluido em tempo real.
  • Interação proativa a ~1Hz de frequência de decisão: Monitora continuamente o vídeo/áudio de entrada e decide a uma frequência de 1Hz se deve falar, suportando comportamentos proativos como iniciar lembretes ou comentários baseados na compreensão da cena em andamento.
  • Modos instruct e thinking em modelo único: Suporta modos “instruct” e “thinking” na mesma configuração de modelo para cobrir diferentes trade-offs de eficiência/desempenho em cenários variados.
  • Conversa em fala bilíngue em tempo real com vozes configuráveis: Suporta conversa em fala bilíngue (inglês/chinês) em tempo real e inclui vozes configuráveis para saída de fala.
  • Clonagem de voz e role play via áudio de referência: Permite clonagem de voz e role play usando um simples clipe de áudio de referência durante a inferência, com desempenho de clonagem superior a ferramentas como CosyVoice2.
  • Resolução alta e throughput de vídeo para entradas multimodais: Processa imagens de alta resolução (até 1,8 milhão de pixels) e vídeos de alta FPS (até 10fps) em qualquer proporção de aspecto de forma eficiente.
  • OCR/análise de documentos para documentos em inglês: Fornece desempenho end-to-end de análise de documentos em inglês no OmniDocBench, superando modelos proprietários citados e ferramentas OCR especializadas como DeepSeek-OCR 2.
  • Capacidade multilíngue (30+ idiomas): Inclui suporte multilíngue para mais de 30 idiomas.
  • Opções de inferência configuráveis para uso local: Suporta inferência PyTorch em GPUs NVIDIA, adaptação end-side via llama.cpp e Ollama (inferência CPU), modelos quantizados int4/GGUF em vários tamanhos, vLLM e SGLang para inferência de alto throughput/eficiência de memória, e FlagOS para plugin de backend multi-chip unificado.

Como Usar o MiniCPM-o 4_5

  1. Escolha um caminho de inferência com base no seu hardware: PyTorch em GPU NVIDIA para aceleração direta, ou opção end-side como llama.cpp/Ollama para inferência CPU.
  2. Comece pelos demos fornecidos: Há demos web open-source que oferecem a experiência de streaming multimodal full-duplex em dispositivos locais (ex.: GPUs/PCs como MacBook).
  3. Execute inferência usando um dos backends suportados (vLLM, SGLang, GGUF/int4 quantizado ou plugin FlagOS), dependendo se prioriza throughput, eficiência de memória ou deployment compacto.

Casos de Uso

  • Tutoria ou assistência ao vivo full-duplex em celular/workstation: Use entrada contínua de áudio/vídeo para respostas conversacionais em tempo real com texto e saída falada.
  • Comentário em reuniões ou estilo estúdio ao vivo: Monitore cenas em andamento e dispare comentários ou lembretes proativos sem esperar por turn-taking puramente reativo.
  • Suporte ao cliente bilíngue com personalização de voz: Habilite conversa em fala inglês/chinês em tempo real e configure vozes de fala; opcionalmente use clonagem de voz/role play quando apropriado.
  • Captura e análise de documentos em tempo real: Forneça imagens de alta resolução para análise end-to-end de documentos em inglês, visando saídas estruturadas em vez de fluxos OCR-only.
  • Compreensão de cena multilíngue: Use a capacidade declarada de >30 idiomas para lidar com instruções ou respostas multilíngues junto a entradas visuais.

FAQ

  • Quais modalidades o MiniCPM-o 4_5 suporta? A página descreve suporte a visão (imagens/vídeo), fala (conversação em tempo real bilíngue) e texto, com streaming ao vivo full-duplex onde as saídas podem ser geradas simultaneamente às entradas.

  • Ele pode gerar fala enquanto ainda recebe novo áudio/vídeo? Sim. O mecanismo de streaming full-duplex do modelo processa fluxos de entrada simultaneamente enquanto gera saídas de texto e fala concorrentes, sem bloqueio mútuo.

  • O MiniCPM-o 4_5 inclui personalização de voz? Sim. Suporta vozes configuráveis para inglês/chinês e inclui clonagem de voz e role play usando um clipe de áudio de referência durante a inferência.

  • Quais opções de hardware são suportadas para rodar o modelo localmente? A página lista inferência PyTorch em GPUs NVIDIA, inferência em CPU via llama.cpp e Ollama, variantes quantizadas int4 GGUF, e frameworks de serving/inferência como vLLM e SGLang, além de FlagOS para backends multi-chip.

  • Que tipos de entradas visuais ele lida? Suporta imagens de alta resolução até 1,8 milhão de pixels e vídeos de alta FPS até 10fps em qualquer proporção de aspecto, conforme indicado na página.

Alternativas

  • Outros sistemas LLM multimodais de streaming/tempo real: Em vez de um modelo omni-modal full-duplex, algumas soluções usam pipelines separados (ex.: visão-para-texto + ASR + TTS). Elas diferem no fluxo de trabalho: podem não oferecer o mesmo comportamento de streaming de entrada/saída simultâneo end-to-end descrito aqui.
  • Assistentes focados em fala sem streaming de visão unificado: Assistentes de voz com prioridade em fala lidam com conversas em tempo real, mas podem não combinar entrada de visão contínua com saídas de fala/texto simultâneas da mesma forma end-to-end.
  • Ferramentas locais de OCR/análise de documentos: Para tarefas de análise de documentos, ferramentas dedicadas de OCR/extração de documentos podem ser mais especializadas; no entanto, elas focam tipicamente na extração de texto em vez da interação omni-modal ao vivo mais ampla (visão + fala + comportamento proativo).
MiniCPM-o 4_5 | UStack