Gemma 4
Gemma 4 ist eine Open-Model-Familie für fortgeschrittenes Reasoning und agentic Workflows – in mehreren Größen für Local- und Edge-Deployments.
Was ist Gemma 4?
Gemma 4 ist eine Open-Model-Familie, die für eine Bandbreite an Developer- und Edge-Hardware entwickelt wurde. Sie zielt auf fortgeschrittenes Reasoning und „agentic Workflows“ ab und erweitert grundlegende Chat-Funktionen um Aufgaben, die mehrstufige Logik und Tool-Nutzung erfordern.
Gemma 4 wird unter einer Apache-2.0-Lizenz veröffentlicht und ergänzt die Gemini-Modelle von Google, indem sie Entwicklern eine Open-Model-Option bietet, die lokal lauffähig und für eigene Tasks feinabstimmbar ist.
Wichtige Features
- Mehrere Modellgrößen für verschiedene Hardware: Gemma 4 gibt’s in vier Größen – Effective 2B (E2B), Effective 4B (E4B), 26B Mixture of Experts (MoE) und 31B Dense –, damit Entwickler Kapazität vs. Laufzeitbedürfnisse wählen können.
- Agentic-Workflow-Unterstützung: Native Unterstützung für Function-Calling, strukturierten JSON-Output und native Systemanweisungen, um Agents zu bauen, die mit Tools und APIs interagieren.
- Fortgeschrittenes Reasoning: Nachgewiesene Verbesserungen bei Mathe- und Instruction-Following-Benchmarks, die mehrstufige Planung und tiefere Logik erfordern.
- Code-Generierung für lokalen Einsatz: Unterstützt hochwertige Offline-Code-Generierung für einen local-first AI-Code-Assistant-Workflow.
- Multimodale Eingaben (Video, Bilder und Audio bei Edge-Größen): Alle Modelle verarbeiten nativ Video und Bilder für Tasks wie OCR und Diagrammverständnis; die E2B- und E4B-Modelle unterstützen zusätzlich native Audio-Eingaben für Spracherkennung und -verständnis.
- Long-Context-Verarbeitung: Edge-Modelle bieten ein 128K-Context-Fenster, größere Modelle bis 256K, für Prompts mit langen Dokumenten oder Repositories.
- Mehrsprachigkeit: Natürlich trainiert auf über 140 Sprachen für breit gefächerte Sprachanwendungen.
So nutzt du Gemma 4
- Wähle eine Größe, die zu deiner Hardware und Latenz passt (E2B/E4B für Edge/Local-Multimodal; 26B/31B für leistungsfähigeres Reasoning auf passenden GPUs/Workstations).
- Führe die Modellgewichte lokal aus und integriere sie in deinen Application-Workflow.
- Fine-tune auf deine Tasks, wenn du task-spezifische Performance brauchst; die Quelle betont, dass Gemma 4 hardwareeffizient für Laufzeit und Fine-Tuning dimensioniert ist.
- Nutze Modellfähigkeiten wie Function-Calling und strukturierten JSON-Outputs für agentenähnliche Flows, die Tools aufrufen und maschinenlesbare Ergebnisse liefern.
Anwendungsfälle
- Autonomer Tool-using Agent: Nutze Function-Calling plus strukturierten JSON-Output, um mehrstufige Workflows auszuführen, die mit externen Tools oder APIs interagieren.
- Local-first Coding Assistant: Führe Gemma 4 offline auf einer Workstation aus für Code-Generierung ohne Remote-Inference und passe Responses an Developer-Workflows an.
- OCR und Diagrammverständnis in Dokumenten: Sende Bilder (und Video-Inhalte) an die passende Modellvariante für Text-Extraktion via OCR oder Diagramm-Interpretation.
- Sprachfähige Edge-Apps: Nutze E2B oder E4B mit nativer Audio-Eingabe für Spracherkennung und -verständnis bei niedriger Latenz.
- Long-Form-Dokumentenanalyse: Füttere lange Dokumente oder Repository-Kontexte in Modelle mit bis zu 256K Context-Fenster für Tasks mit anhaltendem Reasoning.
FAQ
-
Ist Gemma 4 Open Source? Gemma 4 wird unter einer Apache-2.0-Lizenz veröffentlicht.
-
Welche Modellgrößen gibt’s? Die Familie umfasst Effective 2B (E2B), Effective 4B (E4B), 26B Mixture of Experts (MoE) und 31B Dense.
-
Unterstützt Gemma 4 Tool-Use für Agents? Ja. Die Quelle nennt native Function-Calling, strukturierten JSON-Output und native Systemanweisungen für agentic Workflows.
-
Welche Eingaben kann Gemma 4 verarbeiten? Alle Modelle verarbeiten nativ Video und Bilder. Die E2B- und E4B-Modelle unterstützen zusätzlich native Audio-Eingaben für Spracherkennung und -verständnis.
-
Wie viel Context kann es verarbeiten? Edge-Modelle bieten ein 128K-Context-Fenster, größere Modelle bis 256K.
Alternativen
- Andere Open-Weight-LLM-Familien: Wenn Sie hauptsächlich ein lokal ausführbares Open Model benötigen, vergleichen Sie Gemma 4 mit anderen Open-Weight-Language-Model-Familien, die unterschiedliche Größenstufen und Kontextlängen bieten.
- Proprietäre cloud-basierte Agent-Plattformen: Wenn Sie Managed Services für Agent-Ausführung und Tool-Orchestrierung bevorzugen statt lokaler Inference, können Cloud-Angebote den Infrastrukturaufwand reduzieren – auf Kosten der remote laufenden Modelle.
- Multimodale Modelle anderer Anbieter: Für OCR/Video/Chart- + Speech-Anforderungen vergleichen Sie mit multimodalen Modellfamilien, die explizit die von Ihnen geplanten Modalitäten unterstützen (Bild/Video und Audio).
- Model-Orchestrierungs-Frameworks (Agent-Runtimes): Wenn Ihr Hauptziel zuverlässiges Tool-Calling und strukturierte Outputs sind, betrachten Sie Agent-Orchestrierungs-Bibliotheken/Frameworks, die mit mehreren zugrunde liegenden Model-Anbietern laufen, einschließlich Open Models.
Alternativen
AakarDev AI
AakarDev AI ist eine leistungsstarke Plattform, die die Entwicklung von KI-Anwendungen mit nahtloser Integration von Vektordatenbanken vereinfacht und eine schnelle Bereitstellung und Skalierbarkeit ermöglicht.
BenchSpan
BenchSpan führt KI-Agent-Benchmarks parallel aus, erfasst Scores und Fehler in einer geordneten Run-Historie und macht Ergebnisse commit-gebunden reproduzierbar.
Edgee
Edgee ist ein edge-natives AI-Gateway: komprimiert Prompts vor LLM-Providern und bietet eine OpenAI-kompatible API zum Routing über 200+ Modelle.
Codex Plugins
Mit Codex Plugins bündelst du Skills, App-Integrationen und MCP-Server zu wiederverwendbaren Workflows und erweiterst Codex für Tools wie Gmail, Google Drive und Slack.
Wallie
Wallie ist ein Open-Source-AI-Streamer-Framework mit Echtzeit-Vision, anpassbaren Persönlichkeiten, Chat, TTS und Avatar-Ausgabe für VTuber-Streams auf Twitch, YouTube oder Kick.
Whirr
Whirr ist eine leise macOS-Menüleisten-App, die Claude Code Agent-Aktivität im Notch spiegelt – für schnellen Blick, ohne auf den Bildschirm zu schauen.