Gemma 4

¿Qué es Gemma 4?

Gemma 4 es una familia de modelos open diseñada para ejecutarse en una variedad de hardware de desarrolladores y edge. Apunta a razonamiento avanzado y «flujos agentic», extendiéndose más allá del chat básico para soportar tareas que requieren lógica multi-paso y uso de herramientas.

Gemma 4 se lanza bajo licencia Apache 2.0 y está posicionada para complementar los modelos Gemini de Google, ofreciendo a los desarrolladores una opción open que se puede ejecutar localmente y afinar para sus propias tareas.

Características clave

Múltiples tamaños de modelo para diferentes hardware: Gemma 4 se lanza en cuatro tamaños—Effective 2B (E2B), Effective 4B (E4B), 26B Mixture of Experts (MoE) y 31B Dense—para que los desarrolladores elijan capacidad frente a necesidades de tiempo de ejecución.
Soporte para flujos agentic: Soporte nativo para function-calling, structured JSON output y native system instructions para ayudar a construir agentes que interactúen con herramientas y APIs.
Razonamiento avanzado: Mejoras demostradas en benchmarks de matemáticas y seguimiento de instrucciones que requieren planificación multi-paso y lógica más profunda.
Generación de código para uso local: Soporta generación de offline code de alta calidad, permitiendo un flujo de asistente de código AI local-first.
Entrada multimodal (video, imágenes y audio en tamaños edge): Todos los modelos procesan nativamente video e imágenes para tareas como OCR y comprensión de gráficos; los modelos E2B y E4B también incluyen native audio input para reconocimiento y comprensión de voz.
Procesamiento de contexto largo: Los modelos edge soportan una ventana de contexto de 128K, y los modelos más grandes hasta 256K, permitiendo prompts con documentos largos o repositorios.
Capacidad multilingüe: Entrenado nativamente en más de 140 idiomas para desarrollo de aplicaciones en múltiples lenguajes.

Cómo usar Gemma 4

Elige un tamaño que se ajuste a tu hardware y necesidades de latencia (E2B/E4B para uso edge/local multimodal; 26B/31B para razonamiento más capaz en GPUs/estaciones de trabajo adecuadas).
Ejecuta los pesos del modelo localmente e intégralo en tu flujo de aplicación.
Ajusta fino en tus tareas cuando busques rendimiento específico; la fuente indica que Gemma 4 está dimensionado para ejecutarse y ajustarse eficientemente en hardware.
Usa capacidades del modelo como function-calling y structured JSON outputs al construir flujos tipo agente que llamen herramientas y produzcan resultados legibles por máquina.

Casos de uso

Construye un agente autónomo que use herramientas: Usa function-calling más structured JSON output para que el modelo ejecute flujos multi-paso que interactúen con herramientas o APIs externas.
Asistente de codificación local-first: Ejecuta Gemma 4 offline en una estación de trabajo para generación de código sin depender de inferencia remota, y estructura respuestas para flujos de desarrolladores.
OCR y comprensión de gráficos en documentos: Envía imágenes (y contenido de video) al variante de modelo relevante para extraer texto vía OCR o interpretar gráficos.
Aplicaciones edge con voz: Usa E2B o E4B con native audio input para reconocimiento y comprensión de voz en contextos de baja latencia.
Análisis de documentos largos: Alimenta documentos largos o contexto de repositorio en modelos con ventana de contexto de hasta 256K para tareas que requieren razonamiento sostenido.

Preguntas frecuentes

¿Es Gemma 4 open source? Gemma 4 se lanza bajo licencia Apache 2.0.
¿Qué tamaños de modelo están disponibles? La familia se lanza en Effective 2B (E2B), Effective 4B (E4B), 26B Mixture of Experts (MoE) y 31B Dense.
¿Soporta Gemma 4 el uso de herramientas para agentes? Sí. La fuente especifica function-calling nativo, structured JSON output y native system instructions para flujos agentic.
¿Qué tipos de entradas puede manejar Gemma 4? Todos los modelos procesan nativamente video e imágenes. Los modelos E2B y E4B también soportan native audio input para reconocimiento y comprensión de voz.
¿Cuánto contexto puede procesar? Los modelos edge ofrecen una ventana de contexto de 128K, y los más grandes hasta 256K.

Alternativas

Otras familias de LLM open-weight: Si principalmente necesitas un modelo open que puedas ejecutar localmente, puedes comparar Gemma 4 con otras familias de modelos de lenguaje open-weight que ofrecen diferentes tamaños y longitudes de contexto.
Plataformas propietarias basadas en la nube para agentes: Si prefieres servicios gestionados para ejecución de agentes y orquestación de herramientas en lugar de inferencia local, las ofertas en la nube pueden reducir el esfuerzo de infraestructura, a costa de ejecutar modelos de forma remota.
Modelos multimodales de otros proveedores: Para necesidades de OCR/video/gráficos + voz, compara con familias de modelos multimodales que admitan explícitamente las modalidades que planeas usar (imagen/video y audio).
Frameworks de orquestación de modelos (runtimes de agentes): Si tu objetivo principal es tool-calling fiable y salidas estructuradas, considera bibliotecas/frameworks de orquestación de agentes que funcionen con múltiples proveedores de modelos subyacentes, incluidos modelos open.

Gemma 4

¿Qué es Gemma 4?

Características clave

Cómo usar Gemma 4

Casos de uso

Preguntas frecuentes

Alternativas

Alternativas

AakarDev AI

BenchSpan

Edgee

Codex Plugins

Wallie

Whirr