MiniCPM-o 4_5
MiniCPM-o 4_5 — 9B omni-modal модель для full-duplex живого взаимодействия: видео/аудио в реальном времени и одновременная генерация текста и речи.
Что такое MiniCPM-o 4_5?
MiniCPM-o 4_5 — открытая модель для end-to-end омнимодального живого взаимодействия, объединяющая зрение, речь и текст. Она предназначена для работы с потоками видео и аудио в реальном времени, чтобы модель могла воспринимать происходящее и отвечать одновременным текстовым и речевым выводом.
Модель построена end-to-end с использованием компонентов SigLip2, Whisper-medium, CosyVoice2 и Qwen3-8B, с заявленным общим размером 9B параметров. Её основная цель — обеспечить full-duplex мультимодальный стриминг: обработку непрерывных входов с генерацией выходов без взаимной блокировки.
Ключевые возможности
- Full-duplex мультимодальный живой стриминг (текст + речь): Одновременно обрабатывает непрерывные потоки видео и аудио, генерируя параллельный текстовый и речевой вывод, обеспечивая цикл взаимодействия «видеть, слушать и говорить» в реальном времени.
- Проактивное взаимодействие с частотой решений ~1 Гц: Непрерывно мониторит видео/аудио и принимает решения с частотой 1 Гц — говорить или нет, поддерживая проактивные действия вроде напоминаний или комментариев на основе понимания сцены.
- Режимы instruct и thinking в одной модели: Поддерживает режимы «instruct» и «thinking» в одной конфигурации модели для разных компромиссов между эффективностью и производительностью.
- Двуязычный речевой разговор в реальном времени с настраиваемыми голосами: Поддерживает двуязычный (английский/китайский) речевой разговор в реальном времени и настраиваемые голоса для речевого вывода.
- Клонирование голоса и ролевые игры по референсному аудио: Позволяет клонировать голос и играть роли с помощью простого референсного аудиоклипа на инференсе; на странице указано, что качество клонирования превосходит CosyVoice2.
- Высокое разрешение и пропускная способность видео для мультимодальных входов: Эффективно обрабатывает изображения высокого разрешения (до 1,8 млн пикселей) и видео с высоким FPS (до 10 fps) в любом соотношении сторон.
- OCR/парсинг документов на английском: Обеспечивает end-to-end парсинг английских документов по OmniDocBench; на странице отмечено превосходство над проприетарными моделями и специализированными OCR-инструментами вроде DeepSeek-OCR 2.
- Многоязычность (30+ языков): Поддержка более 30 языков.
- Настраиваемые опции инференса для локального использования: Поддержка PyTorch-инференса на NVIDIA GPU, адаптация для end-side через llama.cpp и Ollama (CPU-инференс), квантованные модели int4/GGUF разных размеров, vLLM и SGLang для высокопроизводительного/памятесберегающего инференса, FlagOS для унифицированного плагина multi-chip бэкенда.
Как использовать MiniCPM-o 4_5
- Выберите путь инференса в зависимости от оборудования: PyTorch на NVIDIA GPU для простого ускорения или end-side-вариант вроде llama.cpp/Ollama для CPU-инференса.
- Начните с предоставленных демо: На странице указано наличие open-source веб-демо, обеспечивающих full-duplex мультимодальный живой стриминг на локальных устройствах (например, GPU/PC вроде MacBook).
- Запустите инференс с одним из поддерживаемых бэкендов (vLLM, SGLang, квантованные GGUF/int4 или плагин FlagOS) в зависимости от приоритетов: пропускная способность, эффективность памяти или компактное развертывание.
Сценарии использования
- Full-duplex живой tutor или ассистент на телефоне/рабочий станции: Используйте непрерывный аудио/видео-вход для разговорных ответов в реальном времени с текстом и речью.
- Живой комментарий на встречах или в студии: Мониторьте сцены и запускайте проактивные комментарии/напоминания без ожидания реактивных ходов.
- Двуязычная поддержка клиентов с персонализацией голоса: Обеспечьте реальный английский/китайский речевой разговор, настройте голоса; опционально используйте клонирование/ролевые игры.
- Захват и парсинг документов в реальном времени: Подавайте изображения высокого разрешения для end-to-end парсинга английских документов с получением структурированных выходов, а не только OCR.
- Многоязычное понимание сцен: Используйте заявленную поддержку >30 языков для многоязычных инструкций/ответов вместе с визуальными входами.
FAQ
-
Какие модальности поддерживает MiniCPM-o 4_5? На странице описана поддержка зрения (изображения/видео), речи (двуязычный разговор в реальном времени) и текста с full-duplex живой трансляцией, где выходы генерируются параллельно с входящими потоками.
-
Может ли она генерировать речь, пока ещё получает новый аудио/видео? Да. Механизм full-duplex трансляции модели описан как одновременная обработка входных потоков с параллельной генерацией текста и речи без взаимной блокировки.
-
Включает ли MiniCPM-o 4_5 настройку голоса? Да. Поддерживает настраиваемые голоса для английского/китайского, включая клонирование голоса и ролевую игру с использованием референсного аудиоклипа во время инференса.
-
Какие аппаратные опции поддерживаются для локального запуска модели? На странице перечислены PyTorch-инференс на NVIDIA GPU, CPU-инференс через llama.cpp и Ollama, квантизованные int4 GGUF-варианты, а также фреймворки для сервировки/инференса, включая vLLM и SGLang, плюс FlagOS для мультичиповых бэкендов.
-
Какие типы визуальных входов она обрабатывает? Поддерживает изображения высокого разрешения до 1,8 млн пикселей и видео с высоким FPS до 10 fps в любом соотношении сторон, как указано на странице.
Альтернативы
- Другие мультимодальные системы LLM с трансляцией/в реальном времени: Вместо full-duplex омнимодальной модели некоторые решения используют отдельные пайплайны (например, vision-to-text + ASR + TTS). Они отличаются по workflow: могут не обеспечивать тот же end-to-end параллельный ввод/вывод, описанный здесь.
- Голосовые ассистенты, ориентированные на речь, без унифицированной трансляции зрения: Голосовые ассистенты с приоритетом речи могут вести разговоры в реальном времени, но могут не комбинировать непрерывный визуальный ввод с параллельными речевыми/текстовыми выходами в той же end-to-end манере.
- Локальные toolchain для OCR/парсинга документов: Для задач парсинга документов специализированные инструменты OCR/извлечения документов могут быть более узконаправленными; однако они обычно фокусируются на извлечении текста, а не на более широком омнимодальном живом взаимодействии (зрение + речь + проактивное поведение).
Альтернативы
Lemon
Lemon — AI-агент для управления задачами голосом. Выполняйте работу, не переключаясь между приложениями.
PXZ AI
Все-в-одном AI платформа, которая объединяет инструменты для изображения, видео, голоса, письма и чата для повышения креативности и сотрудничества.
Gemma AI
Gemma AI — это умное приложение, которое звонит вам напрямую с персонализированными, интеллектуальными голосовыми напоминаниями, чтобы гарантировать, что вы никогда не пропустите важные задачи, встречи или сроки.
Tavus
Tavus создает AI для живого общения лицом к лицу: видит, слышит и отвечает в реальном времени. Доступны видео-агенты и цифровые двойники через API.
AakarDev AI
AakarDev AI — это мощная платформа, которая упрощает разработку приложений ИИ с бесшовной интеграцией векторных баз данных, позволяя быстрое развертывание и масштабируемость.
Sanota
Sanota превращает ваш голос в четкий и красивый текст — чтобы легко сохранять воспоминания и идеи. Начните бесплатно.