Gello

¿Qué es Gello?

Gello es una app Android que ejecuta un modelo de lenguaje de Hugging Face completamente en el dispositivo y lo conecta a Discord como bot. Está diseñada para que las personas en un canal de Discord puedan hablar directamente con el bot, mientras las respuestas se generan localmente en el teléfono y no mediante una API en la nube.

El proyecto se basa en un único APK y una conexión persistente con Discord, con el teléfono ejecutando un servicio en primer plano y gestionando en el dispositivo los mensajes entrantes, la construcción de prompts y las respuestas. El repositorio señala compatibilidad con Gemma 4 E2B empaquetado como un modelo .litertlm de la organización litert-community de Hugging Face, y indica que los modelos .task no son compatibles.

Funciones clave

Inferencia del modelo en el dispositivo en Android: Gello ejecuta el modelo de lenguaje localmente en el teléfono, de modo que las respuestas se generan sin enviar prompts a un servicio LLM externo.
Integración como bot de Discord: se conecta de forma nativa a Discord y puede responder en los canales donde está instalado el bot, lo que lo hace adecuado para interacciones de chat grupal.
Arquitectura de servicio en primer plano: la app mantiene una conexión persistente con el WebSocket del Discord Gateway, necesaria para un bot siempre activo que se ejecuta desde un teléfono.
Búfer deslizante de contexto por canal: los mensajes entrantes actualizan un búfer por canal, con un valor predeterminado de 20 mensajes, para que las respuestas puedan usar el historial reciente de la conversación.
Compatibilidad automática con speculative decoding: cuando el modelo .litertlm cargado incluye compatibilidad con el MTP drafter, Gello activa speculative decoding para mejorar la velocidad de respuesta.
Implementación en un solo teléfono: el repositorio enfatiza que toda la pila cabe en una sola app Android, sin necesidad de Termux, un portátil ni un servidor de modelo aparte.

Cómo usar Gello

Instala el APK de Android en un teléfono compatible, configúralo como bot de Discord y carga un modelo .litertlm compatible, como la versión probada de Gemma 4 E2B. Una vez en ejecución, la app mantiene activo un servicio en primer plano, escucha los mensajes de Discord, construye prompts a partir del contexto reciente del canal y publica las respuestas generadas de vuelta en el canal.

Casos de uso

Asistente para chat grupal: usa Gello para colocar un participante de IA local dentro de un canal de Discord, de modo que varias personas puedan hacer preguntas y recibir respuestas en el mismo hilo.
Reutilización de un viejo teléfono Android: usa un teléfono de repuesto de 3 a 5 años como una caja de IA local dedicada y siempre activa, en lugar de dejarlo sin usar en un cajón.
Configuración de inferencia sin conexión o autocontenida: mantén la ejecución del modelo en el dispositivo para usuarios que quieran evitar un endpoint LLM alojado o una máquina de servidor separada.
Experimento de despliegue ligero en el edge: prueba cómo se comporta un modelo pequeño en el dispositivo como bot de chat al combinarlo con Android, Discord y LiteRT-LM.
Benchmarking e iteración de modelos locales: explora cómo speculative decoding y la compatibilidad con modelos .litertlm afectan al comportamiento de respuesta en tiempo real en hardware móvil.

FAQ

¿Gello ejecuta el modelo en la nube? No. El repositorio describe Gello como un bot en el dispositivo: los prompts y las respuestas permanecen en el teléfono Android, y el modelo se ejecuta localmente mediante LiteRT-LM.

¿Qué formatos de modelo admite? La fuente indica que la compatibilidad probada es con litert-community/gemma-4-E2B-it-litert-lm, y que cualquier modelo .litertlm de la organización litert-community de Hugging Face debería funcionar. Indica explícitamente que los modelos .task no son compatibles.

¿Requiere un portátil o un servidor aparte? No. El proyecto se presenta como un único APK de Android que se comunica directamente con Discord, sin Termux, un portátil ni un servidor de modelo separado.

¿Cómo gestiona el contexto de la conversación? Gello mantiene un búfer deslizante por canal con los mensajes recientes, con un tamaño predeterminado de 20 mensajes, y usa ese contexto al generar una respuesta.

¿Por qué se menciona speculative decoding? El repositorio explica que las cabezas MTP de Gemma 4 y la ruta de speculative decoding de LiteRT-LM ayudan a hacer más rápida la generación de respuestas en el dispositivo al producir más de un token por paso de decodificación cuando está soportado.

Alternativas

OpenClaw: un proyecto cercano mencionado en el repositorio. También expone una IA local a través de apps de chat, pero está planteado como un producto de escritorio para macOS, Windows y Linux, en lugar de una app Android centrada en el teléfono.
Integraciones de chatbot alojadas: bots tradicionales de Discord impulsados por APIs de LLM en la nube. Son más fáciles de desplegar si quieres inferencia gestionada, pero no mantienen la generación en el teléfono ni evitan claves de API externas.
Servidores de modelos locales autoalojados: configuraciones que ejecutan un modelo en una máquina aparte y conectan ese modelo con apps de chat. Ofrecen una infraestructura más general que Gello, pero requieren más componentes que una sola app Android.
Otras apps de IA Android en el dispositivo: apps móviles que ejecutan modelos localmente sin integración con Discord. Pueden compartir la misma familia de modelos de inferencia, pero no están necesariamente diseñadas para participar en un chat de grupo como bot.

Gello

¿Qué es Gello?

Funciones clave

Cómo usar Gello

Casos de uso

FAQ

Alternativas

Alternativas

AakarDev AI

BookAI.chat

BenchSpan

Edgee

Codex Plugins

Ably Chat