Gemma 4
Gemma 4 es una familia de modelos open para razonamiento avanzado y flujos agentic, con múltiples tamaños para ejecución local y edge.
¿Qué es Gemma 4?
Gemma 4 es una familia de modelos open diseñada para ejecutarse en una variedad de hardware de desarrolladores y edge. Apunta a razonamiento avanzado y «flujos agentic», extendiéndose más allá del chat básico para soportar tareas que requieren lógica multi-paso y uso de herramientas.
Gemma 4 se lanza bajo licencia Apache 2.0 y está posicionada para complementar los modelos Gemini de Google, ofreciendo a los desarrolladores una opción open que se puede ejecutar localmente y afinar para sus propias tareas.
Características clave
- Múltiples tamaños de modelo para diferentes hardware: Gemma 4 se lanza en cuatro tamaños—Effective 2B (E2B), Effective 4B (E4B), 26B Mixture of Experts (MoE) y 31B Dense—para que los desarrolladores elijan capacidad frente a necesidades de tiempo de ejecución.
- Soporte para flujos agentic: Soporte nativo para function-calling, structured JSON output y native system instructions para ayudar a construir agentes que interactúen con herramientas y APIs.
- Razonamiento avanzado: Mejoras demostradas en benchmarks de matemáticas y seguimiento de instrucciones que requieren planificación multi-paso y lógica más profunda.
- Generación de código para uso local: Soporta generación de offline code de alta calidad, permitiendo un flujo de asistente de código AI local-first.
- Entrada multimodal (video, imágenes y audio en tamaños edge): Todos los modelos procesan nativamente video e imágenes para tareas como OCR y comprensión de gráficos; los modelos E2B y E4B también incluyen native audio input para reconocimiento y comprensión de voz.
- Procesamiento de contexto largo: Los modelos edge soportan una ventana de contexto de 128K, y los modelos más grandes hasta 256K, permitiendo prompts con documentos largos o repositorios.
- Capacidad multilingüe: Entrenado nativamente en más de 140 idiomas para desarrollo de aplicaciones en múltiples lenguajes.
Cómo usar Gemma 4
- Elige un tamaño que se ajuste a tu hardware y necesidades de latencia (E2B/E4B para uso edge/local multimodal; 26B/31B para razonamiento más capaz en GPUs/estaciones de trabajo adecuadas).
- Ejecuta los pesos del modelo localmente e intégralo en tu flujo de aplicación.
- Ajusta fino en tus tareas cuando busques rendimiento específico; la fuente indica que Gemma 4 está dimensionado para ejecutarse y ajustarse eficientemente en hardware.
- Usa capacidades del modelo como function-calling y structured JSON outputs al construir flujos tipo agente que llamen herramientas y produzcan resultados legibles por máquina.
Casos de uso
- Construye un agente autónomo que use herramientas: Usa function-calling más structured JSON output para que el modelo ejecute flujos multi-paso que interactúen con herramientas o APIs externas.
- Asistente de codificación local-first: Ejecuta Gemma 4 offline en una estación de trabajo para generación de código sin depender de inferencia remota, y estructura respuestas para flujos de desarrolladores.
- OCR y comprensión de gráficos en documentos: Envía imágenes (y contenido de video) al variante de modelo relevante para extraer texto vía OCR o interpretar gráficos.
- Aplicaciones edge con voz: Usa E2B o E4B con native audio input para reconocimiento y comprensión de voz en contextos de baja latencia.
- Análisis de documentos largos: Alimenta documentos largos o contexto de repositorio en modelos con ventana de contexto de hasta 256K para tareas que requieren razonamiento sostenido.
Preguntas frecuentes
-
¿Es Gemma 4 open source? Gemma 4 se lanza bajo licencia Apache 2.0.
-
¿Qué tamaños de modelo están disponibles? La familia se lanza en Effective 2B (E2B), Effective 4B (E4B), 26B Mixture of Experts (MoE) y 31B Dense.
-
¿Soporta Gemma 4 el uso de herramientas para agentes? Sí. La fuente especifica function-calling nativo, structured JSON output y native system instructions para flujos agentic.
-
¿Qué tipos de entradas puede manejar Gemma 4? Todos los modelos procesan nativamente video e imágenes. Los modelos E2B y E4B también soportan native audio input para reconocimiento y comprensión de voz.
-
¿Cuánto contexto puede procesar? Los modelos edge ofrecen una ventana de contexto de 128K, y los más grandes hasta 256K.
Alternativas
- Otras familias de LLM open-weight: Si principalmente necesitas un modelo open que puedas ejecutar localmente, puedes comparar Gemma 4 con otras familias de modelos de lenguaje open-weight que ofrecen diferentes tamaños y longitudes de contexto.
- Plataformas propietarias basadas en la nube para agentes: Si prefieres servicios gestionados para ejecución de agentes y orquestación de herramientas en lugar de inferencia local, las ofertas en la nube pueden reducir el esfuerzo de infraestructura, a costa de ejecutar modelos de forma remota.
- Modelos multimodales de otros proveedores: Para necesidades de OCR/video/gráficos + voz, compara con familias de modelos multimodales que admitan explícitamente las modalidades que planeas usar (imagen/video y audio).
- Frameworks de orquestación de modelos (runtimes de agentes): Si tu objetivo principal es tool-calling fiable y salidas estructuradas, considera bibliotecas/frameworks de orquestación de agentes que funcionen con múltiples proveedores de modelos subyacentes, incluidos modelos open.
Alternativas
AakarDev AI
AakarDev AI es una plataforma poderosa que simplifica el desarrollo de aplicaciones de IA con integración fluida de bases de datos vectoriales, permitiendo un despliegue y escalabilidad rápidos.
BenchSpan
BenchSpan ejecuta benchmarks de agentes con IA en paralelo, registra puntuaciones y fallos en un historial organizado y ayuda a reproducir resultados por commit.
Edgee
Edgee es un gateway de IA nativo en el edge que comprime prompts antes de llegar a los proveedores. API compatible con OpenAI para enrutar 200+ modelos.
LobeHub
LobeHub es una plataforma de código abierto diseñada para construir, desplegar y colaborar con compañeros de equipo de agentes de IA, funcionando como una interfaz web universal para LLM.
Claude Opus 4.5
Presentamos el mejor modelo del mundo para codificación, agentes, uso de computadoras y flujos de trabajo empresariales.
Codex Plugins
Usa Codex Plugins para combinar skills, integraciones de apps y servidores MCP en flujos reutilizables que amplían el acceso de Codex a Gmail, Drive y Slack.