Gello

Cos'è Gello?

Gello è un'app Android che esegue interamente sul dispositivo un modello linguistico di Hugging Face e lo collega a Discord come bot. È progettata in modo che le persone in un canale Discord possano parlare direttamente con il bot, mentre le risposte vengono generate localmente sul telefono invece che tramite una cloud API.

Il progetto è basato su un singolo APK e su una connessione Discord persistente, con il telefono che esegue un foreground service e gestisce sul dispositivo i messaggi in arrivo, la composizione dei prompt e le risposte. Il repository indica il supporto per Gemma 4 E2B pacchettizzato come modello .litertlm dall'organizzazione Hugging Face litert-community, e specifica che i modelli .task non sono supportati.

Funzionalità principali

Inferenza del modello sul dispositivo su Android: Gello esegue il modello linguistico localmente sul telefono, quindi le risposte vengono generate senza inviare i prompt a un servizio LLM esterno.
Integrazione come bot Discord: si connette nativamente a Discord e può rispondere nei canali in cui il bot è installato, risultando adatto alle interazioni in chat di gruppo.
Architettura con foreground service: l'app mantiene una connessione persistente al Discord Gateway WebSocket, necessaria per un bot sempre attivo in esecuzione da un telefono.
Buffer scorrevole del contesto del canale: i messaggi in arrivo aggiornano un buffer per canale, con un valore predefinito di 20 messaggi, così le risposte possono usare la cronologia recente della conversazione.
Supporto automatico al speculative decoding: quando il modello .litertlm caricato include il supporto MTP drafter, Gello abilita il speculative decoding per migliorare la velocità delle risposte.
Distribuzione su un solo telefono: il repository sottolinea che l'intero stack rientra in una sola app Android, evitando Termux, un laptop o un server modello separato.

Come usare Gello

Installa l'APK Android su un telefono compatibile, configurarlo come bot Discord e carica un modello .litertlm supportato, come la build Gemma 4 E2B testata. Una volta in esecuzione, l'app mantiene attivo un foreground service, ascolta i messaggi Discord, costruisce i prompt dal contesto recente del canale e pubblica nel canale le risposte generate.

Casi d'uso

Assistente per chat di gruppo: usa Gello per inserire un partecipante AI locale in un canale Discord, così più persone possono fare domande e ricevere risposte nello stesso thread.
Riutilizzo di un vecchio telefono Android: trasforma un telefono di riserva di 3-5 anni in una macchina AI locale dedicata, sempre attiva, invece di lasciarlo inutilizzato in un cassetto.
Configurazione di inferenza offline o autosufficiente: mantieni l'esecuzione del modello sul dispositivo per chi vuole evitare un endpoint LLM ospitato o una macchina server separata.
Esperimento di deployment edge leggero: testa come si comporta un piccolo modello on-device come chatbot quando è abbinato ad Android, Discord e LiteRT-LM.
Benchmarking e iterazione di modelli locali: esplora come il speculative decoding e il supporto ai modelli .litertlm influenzano il comportamento delle risposte in tempo reale su hardware mobile.

FAQ

Gello esegue il modello nel cloud? No. Il repository descrive Gello come un bot on-device: prompt e risposte restano sul telefono Android e il modello gira localmente tramite LiteRT-LM.

Quali formati di modello supporta? La fonte dice che il supporto testato è per litert-community/gemma-4-E2B-it-litert-lm, e che dovrebbe funzionare qualsiasi modello .litertlm dell'organizzazione Hugging Face litert-community. Specifica esplicitamente che i modelli .task non sono supportati.

Richiede un laptop o un server separato? No. Il progetto viene presentato come un singolo APK Android che comunica direttamente con Discord, senza Termux, un laptop o un server modello separato.

Come gestisce il contesto della conversazione? Gello mantiene un buffer scorrevole per canale dei messaggi recenti, con dimensione predefinita di 20 messaggi, e usa quel contesto quando genera una risposta.

Perché viene citato il speculative decoding? Il repository spiega che gli MTP head di Gemma 4 e il percorso di speculative decoding di LiteRT-LM aiutano a rendere più veloce la generazione delle risposte on-device, producendo più di un token per ogni step di decoding quando supportato.

Alternative

OpenClaw: un progetto affine menzionato più da vicino nel repository. Espone anch’esso una AI locale tramite app di chat, ma è presentato come prodotto desktop per macOS, Windows e Linux anziché come app Android pensata prima di tutto per il telefono.
Integrazioni di chatbot ospitati: bot Discord tradizionali basati su API cloud LLM. Sono più facili da distribuire se vuoi un’inferenza gestita, ma non mantengono la generazione sul telefono né evitano chiavi API esterne.
Server di modelli locali self-hosted: configurazioni che eseguono un modello su una macchina separata e lo collegano alle app di chat. Offrono un’infrastruttura più generale di Gello, ma richiedono più componenti rispetto a una singola app Android.
Altre app AI Android on-device: app mobili che eseguono modelli in locale senza integrazione con Discord. Possono condividere la stessa famiglia di modelli di inferenza, ma non sono necessariamente progettate per partecipare a una chat di gruppo come bot.

Gello

Cos'è Gello?

Funzionalità principali

Come usare Gello

Casi d'uso

FAQ

Alternative

Alternative

AakarDev AI

BookAI.chat

BenchSpan

Edgee

Codex Plugins

Ably Chat