Gello

Qu'est-ce que Gello ?

Gello est une app Android qui exécute un modèle de langage Hugging Face entièrement sur l’appareil et le connecte à Discord comme bot. Elle est conçue pour que les personnes d’un salon Discord puissent parler directement au bot, tandis que les réponses sont générées localement sur le téléphone plutôt que via une API cloud.

Le projet repose sur un seul APK et une connexion Discord persistante, avec le téléphone qui exécute un service au premier plan et gère sur l’appareil les messages entrants, l’assemblage des prompts et les réponses. Le dépôt indique la prise en charge de Gemma 4 E2B empaqueté comme modèle .litertlm depuis l’organisation Hugging Face litert-community, et précise que les modèles .task ne sont pas pris en charge.

Fonctionnalités clés

Inférence du modèle sur l’appareil sous Android : Gello exécute le modèle de langage localement sur le téléphone, de sorte que les réponses sont générées sans envoyer les prompts à un service LLM externe.
Intégration de bot Discord : il se connecte nativement à Discord et peut répondre dans les salons où le bot est installé, ce qui le rend adapté aux interactions de groupe.
Architecture de service au premier plan : l’application maintient une connexion persistante au WebSocket Discord Gateway, indispensable pour un bot toujours actif exécuté depuis un téléphone.
Tampon de contexte circulaire par salon : les messages entrants mettent à jour un tampon par salon, avec une valeur par défaut de 20 messages, afin que les réponses puissent utiliser l’historique récent de la conversation.
Prise en charge automatique du speculative decoding : lorsque le modèle .litertlm chargé inclut la prise en charge du MTP drafter, Gello active le speculative decoding pour améliorer la vitesse de réponse.
Déploiement sur un seul téléphone : le dépôt met en avant que toute la pile tient dans une seule application Android, sans Termux, sans ordinateur portable ni serveur de modèle séparé.

Comment utiliser Gello

Installez l’APK Android sur un téléphone compatible, configurez-le comme bot Discord et chargez un modèle .litertlm pris en charge, comme le build Gemma 4 E2B testé. Une fois lancé, l’application maintient un service au premier plan actif, écoute les messages Discord, construit les prompts à partir du contexte récent du salon et publie les réponses générées dans le salon.

Cas d’usage

Assistant de salon de groupe : utilisez Gello pour placer un participant IA local dans un salon Discord afin que plusieurs personnes puissent poser des questions et recevoir des réponses dans le même fil.
Réutilisation d’un ancien téléphone Android : faites tourner un téléphone de 3 à 5 ans inutilisé comme machine IA locale dédiée, toujours active, au lieu de le laisser dans un tiroir.
Configuration d’inférence hors ligne ou autonome : gardez l’exécution du modèle sur l’appareil pour les utilisateurs qui veulent éviter un endpoint LLM hébergé ou une machine serveur séparée.
Expérience de déploiement edge léger : testez le comportement d’un petit modèle sur l’appareil lorsqu’il est associé à Android, Discord et LiteRT-LM.
Benchmarking et itération de modèles locaux : explorez comment le speculative decoding et la prise en charge des modèles .litertlm influencent le comportement des réponses en temps réel sur du matériel mobile.

FAQ

Gello exécute-t-il le modèle dans le cloud ? Non. Le dépôt décrit Gello comme un bot sur l’appareil : les prompts et les réponses restent sur le téléphone Android, et le modèle s’exécute localement via LiteRT-LM.

Quels formats de modèle prend-il en charge ? La source indique qu’une prise en charge testée existe pour litert-community/gemma-4-E2B-it-litert-lm, et que tout modèle .litertlm provenant de l’organisation Hugging Face litert-community devrait fonctionner. Elle précise explicitement que les modèles .task ne sont pas pris en charge.

Faut-il un ordinateur portable ou un serveur séparé ? Non. Le projet est présenté comme un seul APK Android qui communique directement avec Discord, sans Termux, sans ordinateur portable ni serveur de modèle séparé.

Comment gère-t-il le contexte de conversation ? Gello maintient un tampon circulaire par salon des messages récents, avec une taille par défaut de 20 messages, et utilise ce contexte lors de la génération d’une réponse.

Pourquoi le speculative decoding est-il mentionné ? Le dépôt explique que les têtes MTP de Gemma 4 et le chemin de speculative decoding de LiteRT-LM contribuent à accélérer la génération des réponses sur l’appareil en produisant plus d’un jeton par étape de décodage lorsque cela est pris en charge.

Alternatives

OpenClaw : un projet voisin mentionné dans le dépôt. Il expose lui aussi une IA locale via des applications de chat, mais il est présenté comme un produit de bureau pour macOS, Windows et Linux plutôt que comme une app Android centrée sur le téléphone.
Intégrations de chatbot hébergées : bots Discord classiques alimentés par des API LLM cloud. Ils sont plus simples à déployer si vous voulez une inférence gérée, mais ils ne conservent pas la génération sur le téléphone et n’évitent pas les clés d’API externes.
Serveurs de modèles locaux auto-hébergés : configurations qui exécutent un modèle sur une machine séparée et connectent ce modèle à des applications de chat. Elles offrent une infrastructure plus polyvalente que Gello, mais demandent plus de composants qu’une simple app Android.
Autres apps Android d’IA embarquée : applications mobiles qui exécutent des modèles en local sans intégration Discord. Elles peuvent partager la même famille de modèles d’inférence, mais ne sont pas nécessairement conçues pour participer à un chat de groupe en tant que bot.

Gello

Qu'est-ce que Gello ?

Fonctionnalités clés

Comment utiliser Gello

Cas d’usage

FAQ

Alternatives

Alternatives

AakarDev AI

BookAI.chat

BenchSpan

Edgee

Codex Plugins

Ably Chat