UStackUStack
Gemma 4 12B icon

Gemma 4 12B

Gemma 4 12B es un modelo de IA multimodal de Google DeepMind para inferencia local en laptops, con visión, audio y texto en una sola arquitectura.

Gemma 4 12B

¿Qué es Gemma 4 12B?

Gemma 4 12B es un modelo de IA multimodal de Google DeepMind diseñado para ejecutarse localmente en laptops y manejar entradas de visión, audio y texto en una sola arquitectura. Se sitúa entre el modelo más pequeño Gemma 4 E4B, orientado al edge, y el modelo Mixture of Experts de 26B, con especial énfasis en integrar razonamiento avanzado en una menor huella de memoria.

El modelo utiliza un diseño sin encoder, lo que significa que las entradas visuales y de audio fluyen directamente al backbone del modelo de lenguaje en lugar de pasar por encoders multimodales separados. Según Google, este enfoque está pensado para reducir la latencia y el uso de memoria, al tiempo que admite flujos de trabajo agentic e inferencia local en hardware de consumo con 16 GB de VRAM o memoria unificada. Gemma 4 12B se publica bajo una licencia Apache 2.0 y está dirigido a desarrolladores que quieren crear e implementar aplicaciones multimodales con herramientas locales o infraestructura en la nube.

Características clave

  • Arquitectura multimodal unificada: Procesa visión y audio directamente en el backbone del LLM sin encoders multimodales separados, lo que simplifica el pipeline y reduce la sobrecarga.
  • Compatibilidad nativa con entrada de audio: Gemma 4 12B se describe como el primer modelo Gemma 4 de tamaño medio con entradas de audio nativas, lo que lo hace adecuado para flujos de trabajo de audio más texto.
  • Implementación local en laptops: Google afirma que el modelo es lo bastante pequeño para ejecutarse en laptops con 16 GB de VRAM o memoria unificada, lo que amplía la experimentación sin conexión y en el dispositivo.
  • Rendimiento avanzado de razonamiento: Se informa que el modelo alcanza un rendimiento en benchmarks cercano al del modelo MoE de 26B más grande, lo que favorece el razonamiento de varios pasos y los flujos de trabajo agentic.
  • Drafters de Multi-Token Prediction: Los drafters MTP integrados están pensados para reducir la latencia durante la generación.
  • Lanzamiento abierto y soporte del ecosistema: Los pesos están disponibles en Hugging Face y Kaggle, y el modelo cuenta con soporte en herramientas como Hugging Face Transformers, llama.cpp, MLX, SGLang, vLLM y Unsloth.

Cómo usar Gemma 4 12B

Los desarrolladores pueden empezar probando el modelo en apps y herramientas locales como LM Studio, Ollama, Google AI Edge Gallery App, la app Google AI Edge Eloquent o la CLI LiteRT-LM. También pueden descargar checkpoints preentrenados y ajustados por instrucciones desde Hugging Face o Kaggle, y luego revisar la documentación para desarrolladores y el notebook de inicio rápido.

A partir de ahí, el modelo puede integrarse en pipelines locales de inferencia o ajustarse para mejorar la eficiencia, según el flujo de trabajo. Para despliegue en producción, Google también indica opciones en la nube como Gemini Enterprise Agent Platform Model Garden, Cloud Run y GKE.

Casos de uso

  • Asistentes multimodales locales: Crear un asistente en el dispositivo que pueda recibir texto, imágenes y audio manteniendo la inferencia en una laptop en lugar de enviar los datos a un servicio remoto.
  • Flujos de trabajo agentic: Crear agentes de varios pasos que razonen sobre entradas, planifiquen acciones y usen comportamiento tipo herramienta en una configuración local o híbrida.
  • Aplicaciones conscientes del audio: Prototipar aplicaciones que necesiten interpretar audio junto con texto, como toma de notas, flujos de trabajo asistidos por transcripción o prompting multimodal.
  • Experimentación para desarrolladores: Probar el comportamiento del modelo, el diseño de prompts y los pipelines de inferencia usando herramientas locales comunes antes de pasar a un despliegue mayor.
  • Pipelines de despliegue en producción: Usar el modelo en entornos de servicio basados en la nube cuando el desarrollo local necesite pasar a endpoints gestionados o a infraestructura escalable.

Preguntas frecuentes

¿Gemma 4 12B requiere encoders separados para visión y audio?
No. Google lo describe como un modelo multimodal sin encoder en el que las entradas de visión y audio fluyen directamente al backbone del modelo de lenguaje.

¿Gemma 4 12B puede ejecutarse en una laptop?
Sí, Google dice que es lo bastante pequeño para ejecutarse localmente en hardware con 16 GB de VRAM o memoria unificada.

¿El modelo está abierto para desarrolladores?
Sí. Se publica bajo una licencia Apache 2.0 y los pesos están disponibles a través de Hugging Face y Kaggle.

¿Con qué herramientas se puede usar?
La publicación menciona herramientas locales y de desarrollo como LM Studio, Ollama, Google AI Edge Gallery App, LiteRT-LM CLI, Hugging Face Transformers, llama.cpp, MLX, SGLang, vLLM y Unsloth.

¿Es solo para uso local?
No. Google también describe opciones de despliegue en Google Cloud, incluyendo Gemini Enterprise Agent Platform Model Garden, Cloud Run y GKE.

Alternativas

  • Modelos multimodales más pequeños enfocados en el edge: Son más adecuados para dispositivos con restricciones muy estrictas y pueden sacrificar algo de profundidad de razonamiento por eficiencia.
  • Modelos multimodales más grandes: Los modelos con más parámetros o arquitecturas de Mixture of Experts pueden ofrecer mayor capacidad, pero normalmente requieren más memoria e infraestructura.
  • Modelos multimodales tradicionales basados en encoder: Usan codificadores separados para imágenes y audio, lo que puede hacerlos más fáciles de entender a nivel arquitectónico, pero a menudo añade latencia y sobrecarga de memoria.
  • APIs multimodales solo en la nube: Son útiles cuando los equipos prefieren servicios gestionados en lugar de inferencia local, pero no ofrecen el mismo flujo de trabajo en el dispositivo descrito para Gemma 4 12B.
Gemma 4 12B | UStack