Gello icon

Gello

Gello é um app Android que executa localmente um modelo de linguagem Hugging Face e o usa como bot do Discord. IA no dispositivo para canais Discord.

Gello

O que é Gello?

Gello é um app Android que executa um modelo de linguagem Hugging Face totalmente no dispositivo e o conecta ao Discord como um bot. Ele foi projetado para que as pessoas em um canal do Discord possam falar diretamente com o bot, enquanto as respostas são geradas localmente no telefone, em vez de por uma API na nuvem.

O projeto é construído em torno de um único APK e de uma conexão persistente com o Discord, com o telefone executando um serviço em primeiro plano e lidando no dispositivo com mensagens recebidas, montagem de prompts e respostas. O repositório informa suporte para Gemma 4 E2B empacotado como um modelo .litertlm da organização litert-community no Hugging Face, e diz que modelos .task não são suportados.

Principais recursos

  • Inferência de modelo no dispositivo no Android: Gello executa o modelo de linguagem localmente no telefone, então as respostas são geradas sem enviar prompts para um serviço externo de LLM.
  • Integração com bot do Discord: conecta-se nativamente ao Discord e pode responder em canais onde o bot está instalado, sendo adequado para interações em chats de grupo.
  • Arquitetura com serviço em primeiro plano: o app mantém uma conexão persistente com o WebSocket do Discord Gateway, necessária para um bot sempre ativo rodando em um telefone.
  • Buffer de contexto do canal em rotação: mensagens recebidas atualizam um buffer por canal, com padrão de 20 mensagens, para que as respostas usem o histórico recente da conversa.
  • Suporte automático a speculative decoding: quando o modelo .litertlm carregado inclui suporte ao MTP drafter, o Gello ativa speculative decoding para melhorar a velocidade das respostas.
  • Implantação em um único telefone: o repositório destaca que toda a stack cabe em um único app Android, sem Termux, laptop ou servidor de modelo separado.

Como usar o Gello

Instale o APK Android em um telefone compatível, configure-o como um bot do Discord e carregue um modelo .litertlm compatível, como a build Gemma 4 E2B testada. Depois de iniciado, o app mantém um serviço em primeiro plano ativo, escuta mensagens do Discord, monta prompts com base no contexto recente do canal e publica as respostas geradas de volta no canal.

Casos de uso

  • Assistente para chat em grupo: use o Gello para inserir uma IA local dentro de um canal do Discord, para que várias pessoas possam fazer perguntas e receber respostas na mesma conversa.
  • Reaproveitar um telefone Android antigo: transforme um celular reserva de 3 a 5 anos em uma caixa de IA local dedicada e sempre ativa, em vez de deixá-lo parado numa gaveta.
  • Configuração de inferência offline ou autossuficiente: mantenha a execução do modelo no dispositivo para usuários que querem evitar um endpoint de LLM hospedado ou uma máquina servidor separada.
  • Experimento de implantação leve na borda: teste como um modelo pequeno no dispositivo se comporta como bot de chat quando combinado com Android, Discord e LiteRT-LM.
  • Benchmark e iteração de modelo local: explore como speculative decoding e suporte a modelos .litertlm afetam o comportamento de resposta em tempo real no hardware móvel.

FAQ

O Gello executa o modelo na nuvem? Não. O repositório descreve o Gello como um bot no dispositivo: prompts e respostas ficam no telefone Android, e o modelo roda localmente via LiteRT-LM.

Quais formatos de modelo ele suporta? A fonte diz que o suporte testado é para litert-community/gemma-4-E2B-it-litert-lm, e que qualquer modelo .litertlm da organização litert-community no Hugging Face deve funcionar. Também diz explicitamente que modelos .task não são suportados.

Ele requer um laptop ou servidor separado? Não. O projeto é apresentado como um único APK Android que fala diretamente com o Discord, sem Termux, laptop ou servidor de modelo separado.

Como ele lida com o contexto da conversa? O Gello mantém um buffer em rotação por canal com as mensagens recentes, com tamanho padrão de 20 mensagens, e usa esse contexto ao gerar uma resposta.

Por que speculative decoding é mencionado? O repositório explica que as camadas MTP da Gemma 4 e o caminho de speculative decoding do LiteRT-LM ajudam a tornar a geração de respostas no dispositivo mais rápida, produzindo mais de um token por etapa de decodificação quando há suporte.

Alternativas

  • OpenClaw: um projeto adjacente mais próximo mencionado no repositório. Também expõe uma IA local por meio de apps de chat, mas é apresentado como um produto desktop para macOS, Windows e Linux, em vez de um app Android focado em celular.
  • Integrações de chatbot hospedadas: bots tradicionais do Discord alimentados por APIs de LLM na nuvem. São mais fáceis de implantar se você quiser inferência gerenciada, mas não mantêm a geração no telefone nem evitam chaves de API externas.
  • Servidores de modelos locais auto-hospedados: configurações que executam um modelo em uma máquina separada e conectam esse modelo a apps de chat. Elas oferecem uma infraestrutura mais geral do que o Gello, mas exigem mais componentes do que um único app Android.
  • Outros apps de IA Android no dispositivo: apps móveis que executam modelos localmente sem integração com o Discord. Eles podem compartilhar a mesma família de modelo de inferência, mas não são necessariamente projetados para participar de um chat em grupo como um bot.