UStackUStack
Gemma 4 icon

Gemma 4

Gemma 4 é uma família de modelos open para raciocínio avançado e fluxos agentic, com tamanhos para deploy local e edge, multimodal e long context.

Gemma 4

O que é Gemma 4?

Gemma 4 é uma família de modelos open projetada para rodar em diversos hardwares de desenvolvedores e edge. Ela foca em raciocínio avançado e “fluxos agentic”, indo além do chat básico para suportar tarefas que exigem lógica multi-etapa e uso de ferramentas.

Gemma 4 é lançada sob licença Apache 2.0 e complementa os modelos Gemini do Google, oferecendo aos desenvolvedores uma opção open que roda localmente e pode ser fine-tunada para tarefas específicas.

Principais Recursos

  • Múltiplos tamanhos de modelo para diferentes hardwares: Gemma 4 vem em quatro tamanhos—Effective 2B (E2B), Effective 4B (E4B), 26B Mixture of Experts (MoE) e 31B Dense—para desenvolvedores escolherem capacidade versus necessidades de runtime.
  • Suporte a fluxos agentic: Suporte nativo a function-calling, structured JSON output e native system instructions para criar agentes que interagem com ferramentas e APIs.
  • Raciocínio avançado: Melhorias demonstradas em benchmarks de matemática e seguimento de instruções que exigem planejamento multi-etapa e lógica mais profunda.
  • Geração de código para uso local: Suporta geração de offline code de alta qualidade, viabilizando um fluxo de assistente de código AI local-first.
  • Entrada multimodal (vídeo, imagens e áudio nos tamanhos edge): Todos os modelos processam nativamente video and images para tarefas como OCR e compreensão de gráficos; os modelos E2B e E4B incluem também native audio input para reconhecimento e compreensão de fala.
  • Processamento de contexto longo: Modelos edge suportam 128K context window, e modelos maiores suportam até 256K, permitindo prompts com documentos ou repositórios longos.
  • Capacidade multilíngue: Treinada nativamente em mais de 140 idiomas para desenvolvimento de aplicações em múltiplas línguas.

Como Usar Gemma 4

  1. Escolha um tamanho que atenda ao seu hardware e necessidades de latência (E2B/E4B para uso edge/local multimodal; 26B/31B para raciocínio mais capaz em GPUs/workstations adequadas).
  2. Execute os pesos do modelo localmente e integre ao seu fluxo de aplicação.
  3. Fine-tune nas suas tarefas para desempenho específico; a fonte nota que Gemma 4 é dimensionada para rodar e fine-tunar eficientemente em hardware.
  4. Use capacidades como function-calling e structured JSON outputs ao construir fluxos agent-like que chamam ferramentas e geram resultados legíveis por máquina.

Casos de Uso

  • Construa um agente autônomo com uso de ferramentas: Use function-calling mais structured JSON output para o modelo executar fluxos multi-etapa que interagem com ferramentas ou APIs externas.
  • Assistente de codificação local-first: Rode Gemma 4 offline em workstation para geração de código sem depender de inferência remota, estruturando respostas para fluxos de desenvolvedores.
  • OCR e compreensão de gráficos em documentos: Envie imagens (e conteúdo de vídeo) para a variante relevante do modelo para extrair texto via OCR ou interpretar gráficos.
  • Aplicações edge com fala: Use E2B ou E4B com native audio input para reconhecimento e compreensão de fala em contexto de baixa latência.
  • Análise de documentos longos: Alimente documentos ou contexto de repositório em modelos com até 256K de contexto para tarefas que exigem raciocínio sustentado.

FAQ

  • Gemma 4 é open source? Gemma 4 é lançada sob licença Apache 2.0.

  • Quais tamanhos de modelo estão disponíveis? A família inclui Effective 2B (E2B), Effective 4B (E4B), 26B Mixture of Experts (MoE) e 31B Dense.

  • Gemma 4 suporta uso de ferramentas para agentes? Sim. A fonte especifica function-calling nativo, structured JSON output e native system instructions para fluxos agentic.

  • Que tipos de entrada Gemma 4 lida? Todos os modelos processam nativamente video and images. Os E2B e E4B suportam também native audio input para reconhecimento e compreensão de fala.

  • Quanto contexto ela processa? Modelos edge oferecem 128K de contexto, e modelos maiores chegam a até 256K.

Alternativas

  • Outras famílias de LLM open-weight: Se você precisa principalmente de um modelo open que possa rodar localmente, compare a Gemma 4 com outras famílias de modelos de linguagem open-weight que oferecem diferentes tiers de tamanho e comprimentos de contexto.
  • Plataformas proprietárias baseadas em nuvem para agentes: Se você prefere serviços gerenciados para execução de agentes e orquestração de ferramentas em vez de inferência local, ofertas em nuvem podem reduzir o esforço de infraestrutura, ao custo de rodar modelos remotamente.
  • Modelos multimodais de outros fornecedores: Para necessidades de OCR/vídeo/gráficos + fala, compare com famílias de modelos multimodais que suportem explicitamente as modalidades que você planeja usar (imagem/vídeo e áudio).
  • Frameworks de orquestração de modelos (runtimes de agentes): Se seu objetivo principal é tool-calling confiável e saídas estruturadas, considere bibliotecas/frameworks de orquestração de agentes que funcionem com múltiplos provedores de modelos subjacentes, incluindo modelos open.
Gemma 4 | UStack