UStackUStack
Gemma 4 icon

Gemma 4

Gemma 4 es una familia de modelos open para razonamiento avanzado y flujos agentic, con múltiples tamaños para ejecución local y edge.

Gemma 4

¿Qué es Gemma 4?

Gemma 4 es una familia de modelos open diseñada para ejecutarse en una variedad de hardware de desarrolladores y edge. Apunta a razonamiento avanzado y «flujos agentic», extendiéndose más allá del chat básico para soportar tareas que requieren lógica multi-paso y uso de herramientas.

Gemma 4 se lanza bajo licencia Apache 2.0 y está posicionada para complementar los modelos Gemini de Google, ofreciendo a los desarrolladores una opción open que se puede ejecutar localmente y afinar para sus propias tareas.

Características clave

  • Múltiples tamaños de modelo para diferentes hardware: Gemma 4 se lanza en cuatro tamaños—Effective 2B (E2B), Effective 4B (E4B), 26B Mixture of Experts (MoE) y 31B Dense—para que los desarrolladores elijan capacidad frente a necesidades de tiempo de ejecución.
  • Soporte para flujos agentic: Soporte nativo para function-calling, structured JSON output y native system instructions para ayudar a construir agentes que interactúen con herramientas y APIs.
  • Razonamiento avanzado: Mejoras demostradas en benchmarks de matemáticas y seguimiento de instrucciones que requieren planificación multi-paso y lógica más profunda.
  • Generación de código para uso local: Soporta generación de offline code de alta calidad, permitiendo un flujo de asistente de código AI local-first.
  • Entrada multimodal (video, imágenes y audio en tamaños edge): Todos los modelos procesan nativamente video e imágenes para tareas como OCR y comprensión de gráficos; los modelos E2B y E4B también incluyen native audio input para reconocimiento y comprensión de voz.
  • Procesamiento de contexto largo: Los modelos edge soportan una ventana de contexto de 128K, y los modelos más grandes hasta 256K, permitiendo prompts con documentos largos o repositorios.
  • Capacidad multilingüe: Entrenado nativamente en más de 140 idiomas para desarrollo de aplicaciones en múltiples lenguajes.

Cómo usar Gemma 4

  1. Elige un tamaño que se ajuste a tu hardware y necesidades de latencia (E2B/E4B para uso edge/local multimodal; 26B/31B para razonamiento más capaz en GPUs/estaciones de trabajo adecuadas).
  2. Ejecuta los pesos del modelo localmente e intégralo en tu flujo de aplicación.
  3. Ajusta fino en tus tareas cuando busques rendimiento específico; la fuente indica que Gemma 4 está dimensionado para ejecutarse y ajustarse eficientemente en hardware.
  4. Usa capacidades del modelo como function-calling y structured JSON outputs al construir flujos tipo agente que llamen herramientas y produzcan resultados legibles por máquina.

Casos de uso

  • Construye un agente autónomo que use herramientas: Usa function-calling más structured JSON output para que el modelo ejecute flujos multi-paso que interactúen con herramientas o APIs externas.
  • Asistente de codificación local-first: Ejecuta Gemma 4 offline en una estación de trabajo para generación de código sin depender de inferencia remota, y estructura respuestas para flujos de desarrolladores.
  • OCR y comprensión de gráficos en documentos: Envía imágenes (y contenido de video) al variante de modelo relevante para extraer texto vía OCR o interpretar gráficos.
  • Aplicaciones edge con voz: Usa E2B o E4B con native audio input para reconocimiento y comprensión de voz en contextos de baja latencia.
  • Análisis de documentos largos: Alimenta documentos largos o contexto de repositorio en modelos con ventana de contexto de hasta 256K para tareas que requieren razonamiento sostenido.

Preguntas frecuentes

  • ¿Es Gemma 4 open source? Gemma 4 se lanza bajo licencia Apache 2.0.

  • ¿Qué tamaños de modelo están disponibles? La familia se lanza en Effective 2B (E2B), Effective 4B (E4B), 26B Mixture of Experts (MoE) y 31B Dense.

  • ¿Soporta Gemma 4 el uso de herramientas para agentes? Sí. La fuente especifica function-calling nativo, structured JSON output y native system instructions para flujos agentic.

  • ¿Qué tipos de entradas puede manejar Gemma 4? Todos los modelos procesan nativamente video e imágenes. Los modelos E2B y E4B también soportan native audio input para reconocimiento y comprensión de voz.

  • ¿Cuánto contexto puede procesar? Los modelos edge ofrecen una ventana de contexto de 128K, y los más grandes hasta 256K.

Alternativas

  • Otras familias de LLM open-weight: Si principalmente necesitas un modelo open que puedas ejecutar localmente, puedes comparar Gemma 4 con otras familias de modelos de lenguaje open-weight que ofrecen diferentes tamaños y longitudes de contexto.
  • Plataformas propietarias basadas en la nube para agentes: Si prefieres servicios gestionados para ejecución de agentes y orquestación de herramientas en lugar de inferencia local, las ofertas en la nube pueden reducir el esfuerzo de infraestructura, a costa de ejecutar modelos de forma remota.
  • Modelos multimodales de otros proveedores: Para necesidades de OCR/video/gráficos + voz, compara con familias de modelos multimodales que admitan explícitamente las modalidades que planeas usar (imagen/video y audio).
  • Frameworks de orquestación de modelos (runtimes de agentes): Si tu objetivo principal es tool-calling fiable y salidas estructuradas, considera bibliotecas/frameworks de orquestación de agentes que funcionen con múltiples proveedores de modelos subyacentes, incluidos modelos open.
Gemma 4 | UStack