Gello

Was ist Gello?

Gello ist eine Android-App, die ein Hugging-Face-Sprachmodell vollständig auf dem Gerät ausführt und es als Bot mit Discord verbindet. Sie ist so konzipiert, dass Nutzer in einem Discord-Channel direkt mit dem Bot sprechen können, während die Antworten lokal auf dem Telefon statt über eine Cloud-API erzeugt werden.

Das Projekt basiert auf einer einzelnen APK und einer dauerhaften Discord-Verbindung, wobei das Telefon einen Foreground Service ausführt und eingehende Nachrichten, das Zusammenstellen von Prompts und die Antworten auf dem Gerät verarbeitet. Im Repository wird die Unterstützung für Gemma 4 E2B erwähnt, das als .litertlm-Modell aus der Hugging-Face-Organisation litert-community paketiert ist, und darauf hingewiesen, dass .task-Modelle nicht unterstützt werden.

Hauptfunktionen

On-Device-Modellinferenz auf Android: Gello führt das Sprachmodell lokal auf dem Telefon aus, sodass Antworten erzeugt werden, ohne Prompts an einen externen LLM-Dienst zu senden.
Discord-Bot-Integration: Es verbindet sich nativ mit Discord und kann in Channels antworten, in denen der Bot installiert ist, was es für Gruppenchat-Interaktionen geeignet macht.
Architektur mit Foreground Service: Die App hält eine dauerhafte Verbindung zum Discord Gateway WebSocket aufrecht, was für einen Always-on-Bot vom Telefon aus notwendig ist.
Rollender Channel-Kontextpuffer: Eingehende Nachrichten aktualisieren einen Puffer pro Channel, standardmäßig mit 20 Nachrichten, damit Antworten den jüngsten Gesprächsverlauf nutzen können.
Automatische Unterstützung für speculative decoding: Wenn das geladene .litertlm-Modell MTP-Drafter-Unterstützung enthält, aktiviert Gello speculative decoding, um die Antwortgeschwindigkeit zu verbessern.
Einsatz auf einem einzelnen Smartphone: Das Repository betont, dass der gesamte Stack in eine einzige Android-App passt, ohne Termux, Laptop oder separaten Modellserver.

So verwenden Sie Gello

Installieren Sie die Android-APK auf einem kompatiblen Telefon, richten Sie es als Discord-Bot ein und laden Sie ein unterstütztes .litertlm-Modell wie den getesteten Gemma 4 E2B-Build. Nach dem Start hält die App einen Foreground Service aktiv, lauscht auf Discord-Nachrichten, erstellt Prompts aus dem aktuellen Channel-Kontext und postet die generierten Antworten zurück in den Channel.

Anwendungsfälle

Gruppenchat-Assistent: Nutzen Sie Gello, um einen lokalen KI-Teilnehmer in einen Discord-Channel zu setzen, damit mehrere Personen Fragen stellen und Antworten im selben Thread erhalten können.
Altes Android-Telefon neu nutzen: Verwenden Sie ein 3 bis 5 Jahre altes Ersatztelefon als dedizierte, immer aktive lokale KI-Box, statt es ungenutzt in der Schublade liegen zu lassen.
Offline- oder eigenständiges Inferenz-Setup: Halten Sie die Modellausführung auf dem Gerät für Nutzer, die einen gehosteten LLM-Endpunkt oder einen separaten Server vermeiden möchten.
Experiment für leichtgewichtige Edge-Bereitstellung: Testen Sie, wie sich ein kleines On-Device-Modell als Chatbot verhält, wenn es mit Android, Discord und LiteRT-LM kombiniert wird.
Lokales Modell-Benchmarking und Iteration: Untersuchen Sie, wie sich speculative decoding und die Unterstützung für .litertlm-Modelle auf das Echtzeit-Antwortverhalten auf mobiler Hardware auswirken.

FAQ

Läuft das Modell bei Gello in der Cloud?
Nein. Im Repository wird Gello als On-Device-Bot beschrieben: Prompts und Antworten bleiben auf dem Android-Telefon, und das Modell läuft lokal über LiteRT-LM.

Welche Modellformate werden unterstützt?
Laut Quelle wird litert-community/gemma-4-E2B-it-litert-lm getestet unterstützt, und jedes .litertlm-Modell aus der Hugging-Face-Organisation litert-community sollte funktionieren. .task-Modelle werden ausdrücklich nicht unterstützt.

Benötigt es einen Laptop oder separaten Server?
Nein. Das Projekt wird als einzelne Android-APK dargestellt, die direkt mit Discord spricht, ohne Termux, Laptop oder separaten Modellserver.

Wie wird der Gesprächskontext gehandhabt?
Gello führt einen rollenden Puffer der aktuellen Nachrichten pro Channel, standardmäßig mit einer Größe von 20 Nachrichten, und verwendet diesen Kontext bei der Antwortgenerierung.

Warum wird speculative decoding erwähnt?
Im Repository wird erklärt, dass Gemma 4s MTP-Heads und der speculative-decoding-Pfad von LiteRT-LM die Antwortgenerierung auf dem Gerät beschleunigen, indem sie bei Unterstützung mehr als ein Token pro Decoding-Schritt erzeugen.

Alternativen

OpenClaw: ein näher verwandtes Projekt, das im Repository erwähnt wird. Es stellt ebenfalls eine lokale KI über Chat-Apps bereit, ist jedoch eher als Desktop-Produkt für macOS, Windows und Linux statt als Android-App für das Smartphone konzipiert.
Gehostete Chatbot-Integrationen: klassische Discord-Bots auf Basis von Cloud-LLM-APIs. Sie lassen sich einfacher bereitstellen, wenn verwaltete Inferenz gewünscht ist, halten die Generierung aber nicht auf dem Handy und vermeiden keine externen API-Keys.
Selbst gehostete lokale Model-Server: Setups, die ein Modell auf einer separaten Maschine ausführen und dieses Modell mit Chat-Apps verbinden. Sie bieten eine allgemeinere Infrastruktur als Gello, erfordern aber mehr Komponenten als eine einzelne Android-App.
Andere lokale Android-KI-Apps: mobile Apps, die Modelle lokal ohne Discord-Integration ausführen. Sie können dieselbe Inferenz-Modellfamilie nutzen, sind aber nicht unbedingt dafür ausgelegt, als Bot an einem Gruppenchat teilzunehmen.

Gello

Was ist Gello?

Hauptfunktionen

So verwenden Sie Gello

Anwendungsfälle

FAQ

Alternativen

Alternativen

AakarDev AI

BookAI.chat

BenchSpan

Edgee

Codex Plugins

Ably Chat