Gemma 4

Gemma 4 — открытое семейство моделей для продвинутого reasoning и агентных workflow: мульти-модальность (видео/изображения, аудио на edge) и long-context.

Большие языковые модели

Дизайн AI API

Разработка ИИ Агентов

Посетить Сайт

Что такое Gemma 4?

Gemma 4 — открытое семейство моделей, предназначенное для работы на различных устройствах разработчиков и edge-оборудовании. Оно ориентировано на продвинутый reasoning и «агентные workflow», выходя за рамки простого чата для поддержки задач, требующих многоэтапной логики и использования инструментов.

Gemma 4 выпущена под лицензией Apache 2.0 и позиционируется как дополнение к моделям Google Gemini, предоставляя разработчикам открытую модель, которую можно запускать локально и дообучать под свои задачи.

Ключевые возможности

Различные размеры моделей для разного оборудования: Gemma 4 выпущена в четырёх размерах — Effective 2B (E2B), Effective 4B (E4B), 26B Mixture of Experts (MoE) и 31B Dense — чтобы разработчики могли выбрать между производительностью и требованиями к времени выполнения.
Поддержка агентных workflow: Встроенная поддержка function-calling, структурированного JSON-выхода и нативных системных инструкций для создания агентов, взаимодействующих с инструментами и API.
Продвинутый reasoning: Демонстрируемые улучшения на бенчмарках по математике и следованию инструкциям, требующим многоэтапного планирования и более глубокой логики.
Генерация кода для локального использования: Поддержка высококачественной оффлайн-генерации кода, обеспечивающая workflow локального AI-ассистента для кодирования.
Мультимодальный ввод (видео, изображения и аудио на edge-размерах): Все модели нативно обрабатывают видео и изображения для задач вроде OCR и понимания графиков; модели E2B и E4B также поддерживают нативный аудиоввод для распознавания и понимания речи.
Обработка длинного контекста: Edge-модели поддерживают окно контекста 128K, а крупные модели — до 256K, что позволяет использовать длинные документы или репозитории в промптах.
Многоязычная поддержка: Нативно обучена на более 140 языках для разработки приложений на широком спектре языков.

Как использовать Gemma 4

Выберите размер, соответствующий вашему оборудованию и требованиям к задержке (E2B/E4B для edge/локального мультимодального использования; 26B/31B для более мощного reasoning на подходящих GPU/рабочих станциях).
Запустите веса модели локально и интегрируйте в свой workflow приложения.
Дообучите на своих задачах, если требуется специализированная производительность; источник отмечает, что Gemma 4 оптимизирована для эффективного запуска и дообучения на оборудовании.
Используйте возможности модели, такие как function-calling и структурированный JSON-выход, при создании агентоподобных потоков, вызывающих инструменты и генерирующих машинно-читаемые результаты.

Примеры использования

Создание автономного агента с использованием инструментов: Используйте function-calling плюс структурированный JSON-выход, чтобы модель выполняла многоэтапные workflow, взаимодействуя с внешними инструментами или API.
Локальный ассистент для кодирования: Запускайте Gemma 4 оффлайн на рабочей станции для генерации кода без удалённого инференса и структурируйте ответы под workflow разработчика.
OCR и понимание графиков в документах: Передавайте изображения (и видеоконтент) подходящей версии модели для извлечения текста через OCR или интерпретации графиков.
Приложения на edge с поддержкой речи: Используйте E2B или E4B с нативным аудиовводом для распознавания и понимания речи в условиях низкой задержки.
Анализ длинных документов: Передавайте длинные документы или контекст репозитория в модели с окном контекста до 256K для задач, требующих устойчивого reasoning.

FAQ

Gemma 4 — это open source? Gemma 4 выпущена под лицензией Apache 2.0.
Какие размеры моделей доступны? Семейство выпущено в Effective 2B (E2B), Effective 4B (E4B), 26B Mixture of Experts (MoE) и 31B Dense.
Поддерживает ли Gemma 4 использование инструментов для агентов? Да. Источник указывает на нативную поддержку function-calling, структурированного JSON-выхода и нативных системных инструкций для агентных workflow.
Какие виды ввода поддерживает Gemma 4? Все модели нативно обрабатывают видео и изображения. Модели E2B и E4B также поддерживают нативный аудиоввод для распознавания и понимания речи.
Какой объём контекста она может обработать? Edge-модели обеспечивают окно контекста 128K, а крупные модели — до 256K.

Альтернативы

Другие открытые LLM-фамилии с открытыми весами: Если вам в первую очередь нужна открытая модель для локального запуска, сравните Gemma 4 с другими семействами открытых языковых моделей, предлагающими разные размеры и длины контекста.
Проприетарные облачные платформы для агентов: Если вы предпочитаете управляемые сервисы для выполнения агентов и оркестрации инструментов вместо локального инференса, облачные решения снизят усилия по инфраструктуре за счёт удалённого запуска моделей.
Мультимодальные модели от других вендоров: Для нужд OCR/видео/графиков + речи сравните с семействами мультимодальных моделей, явно поддерживающими нужные модальности (изображения/видео и аудио).
Фреймворки оркестрации моделей (рантаймы агентов): Если главная цель — надёжный вызов инструментов и структурированные выходы, рассмотрите библиотеки/фреймворки оркестрации агентов, работающие с несколькими провайдерами базовых моделей, включая открытые.

Альтернативы

AakarDev AI

AakarDev AI — это мощная платформа, которая упрощает разработку приложений ИИ с бесшовной интеграцией векторных баз данных, позволяя быстрое развертывание и масштабируемость.

BenchSpan

BenchSpan запускает AI agent бенчмарки параллельно, фиксирует результаты и ошибки в истории прогонов, помогает воспроизводить их по commit hash.

Edgee

Edgee — edge-native AI gateway: сжимает промпты перед LLM-провайдерами и дает единый OpenAI-compatible API для маршрутизации 200+ моделей.

Codex Plugins

Используйте Codex Plugins, чтобы объединять skills, интеграции приложений и MCP-серверы в повторно используемые сценарии для доступа к Gmail, Google Drive и Slack.

Wallie

Wallie — open-source AI streamer framework для VTuber и AI-стримов: real-time vision, чат, TTS и аватар для Twitch, YouTube и Kick.

Whirr

Whirr — тихое приложение для macOS в строке меню: зеркалирует активность агента Claude Code в выемке Mac, чтобы быстро смотреть прогресс, не отвлекаясь.