Gello
Gello é um app Android que executa localmente um modelo de linguagem Hugging Face e o usa como bot do Discord. IA no dispositivo para canais Discord.
O que é Gello?
Gello é um app Android que executa um modelo de linguagem Hugging Face totalmente no dispositivo e o conecta ao Discord como um bot. Ele foi projetado para que as pessoas em um canal do Discord possam falar diretamente com o bot, enquanto as respostas são geradas localmente no telefone, em vez de por uma API na nuvem.
O projeto é construído em torno de um único APK e de uma conexão persistente com o Discord, com o telefone executando um serviço em primeiro plano e lidando no dispositivo com mensagens recebidas, montagem de prompts e respostas. O repositório informa suporte para Gemma 4 E2B empacotado como um modelo .litertlm da organização litert-community no Hugging Face, e diz que modelos .task não são suportados.
Principais recursos
- Inferência de modelo no dispositivo no Android: Gello executa o modelo de linguagem localmente no telefone, então as respostas são geradas sem enviar prompts para um serviço externo de LLM.
- Integração com bot do Discord: conecta-se nativamente ao Discord e pode responder em canais onde o bot está instalado, sendo adequado para interações em chats de grupo.
- Arquitetura com serviço em primeiro plano: o app mantém uma conexão persistente com o WebSocket do Discord Gateway, necessária para um bot sempre ativo rodando em um telefone.
- Buffer de contexto do canal em rotação: mensagens recebidas atualizam um buffer por canal, com padrão de 20 mensagens, para que as respostas usem o histórico recente da conversa.
- Suporte automático a speculative decoding: quando o modelo
.litertlmcarregado inclui suporte ao MTP drafter, o Gello ativa speculative decoding para melhorar a velocidade das respostas. - Implantação em um único telefone: o repositório destaca que toda a stack cabe em um único app Android, sem Termux, laptop ou servidor de modelo separado.
Como usar o Gello
Instale o APK Android em um telefone compatível, configure-o como um bot do Discord e carregue um modelo .litertlm compatível, como a build Gemma 4 E2B testada. Depois de iniciado, o app mantém um serviço em primeiro plano ativo, escuta mensagens do Discord, monta prompts com base no contexto recente do canal e publica as respostas geradas de volta no canal.
Casos de uso
- Assistente para chat em grupo: use o Gello para inserir uma IA local dentro de um canal do Discord, para que várias pessoas possam fazer perguntas e receber respostas na mesma conversa.
- Reaproveitar um telefone Android antigo: transforme um celular reserva de 3 a 5 anos em uma caixa de IA local dedicada e sempre ativa, em vez de deixá-lo parado numa gaveta.
- Configuração de inferência offline ou autossuficiente: mantenha a execução do modelo no dispositivo para usuários que querem evitar um endpoint de LLM hospedado ou uma máquina servidor separada.
- Experimento de implantação leve na borda: teste como um modelo pequeno no dispositivo se comporta como bot de chat quando combinado com Android, Discord e LiteRT-LM.
- Benchmark e iteração de modelo local: explore como speculative decoding e suporte a modelos
.litertlmafetam o comportamento de resposta em tempo real no hardware móvel.
FAQ
O Gello executa o modelo na nuvem? Não. O repositório descreve o Gello como um bot no dispositivo: prompts e respostas ficam no telefone Android, e o modelo roda localmente via LiteRT-LM.
Quais formatos de modelo ele suporta?
A fonte diz que o suporte testado é para litert-community/gemma-4-E2B-it-litert-lm, e que qualquer modelo .litertlm da organização litert-community no Hugging Face deve funcionar. Também diz explicitamente que modelos .task não são suportados.
Ele requer um laptop ou servidor separado? Não. O projeto é apresentado como um único APK Android que fala diretamente com o Discord, sem Termux, laptop ou servidor de modelo separado.
Como ele lida com o contexto da conversa? O Gello mantém um buffer em rotação por canal com as mensagens recentes, com tamanho padrão de 20 mensagens, e usa esse contexto ao gerar uma resposta.
Por que speculative decoding é mencionado? O repositório explica que as camadas MTP da Gemma 4 e o caminho de speculative decoding do LiteRT-LM ajudam a tornar a geração de respostas no dispositivo mais rápida, produzindo mais de um token por etapa de decodificação quando há suporte.
Alternativas
- OpenClaw: um projeto adjacente mais próximo mencionado no repositório. Também expõe uma IA local por meio de apps de chat, mas é apresentado como um produto desktop para macOS, Windows e Linux, em vez de um app Android focado em celular.
- Integrações de chatbot hospedadas: bots tradicionais do Discord alimentados por APIs de LLM na nuvem. São mais fáceis de implantar se você quiser inferência gerenciada, mas não mantêm a geração no telefone nem evitam chaves de API externas.
- Servidores de modelos locais auto-hospedados: configurações que executam um modelo em uma máquina separada e conectam esse modelo a apps de chat. Elas oferecem uma infraestrutura mais geral do que o Gello, mas exigem mais componentes do que um único app Android.
- Outros apps de IA Android no dispositivo: apps móveis que executam modelos localmente sem integração com o Discord. Eles podem compartilhar a mesma família de modelo de inferência, mas não são necessariamente projetados para participar de um chat em grupo como um bot.
Alternativas
AakarDev AI
AakarDev AI é uma plataforma poderosa que simplifica o desenvolvimento de aplicações de IA com integração perfeita de banco de dados vetorial, permitindo implantação rápida e escalabilidade.
BookAI.chat
BookAI permite que você converse com seus livros usando IA, simplesmente fornecendo o título e o autor.
BenchSpan
BenchSpan executa benchmarks de agentes de IA em paralelo, registra scores e falhas em um histórico organizado e facilita reprodutibilidade por commit.
Edgee
Edgee é um gateway de IA nativo na borda que comprime prompts antes de chegar a provedores de LLM, com uma API compatível com OpenAI.
Codex Plugins
Use Codex Plugins para combinar skills, integrações de apps e servidores MCP em fluxos reutilizáveis, ampliando o acesso do Codex a Gmail, Drive e Slack.
Ably Chat
Ably Chat é uma API de chat e SDKs para criar apps de mensagens em tempo real com reações, presença e edição/remoção de mensagens.