Gello icon

Gello

Gello — Android-приложение, которое локально запускает языковую модель Hugging Face и подключает её к Discord как бота.

Gello

Что такое Gello?

Gello — это Android-приложение, которое полностью локально запускает языковую модель Hugging Face и подключает её к Discord как бота. Оно сделано так, чтобы участники канала Discord могли общаться с ботом напрямую, а ответы генерировались локально на телефоне, а не через cloud API.

Проект построен вокруг одного APK и постоянного подключения к Discord: телефон работает как foreground service и обрабатывает входящие сообщения, сборку prompt’ов и ответы прямо на устройстве. В репозитории указана поддержка Gemma 4 E2B, упакованной как модель .litertlm из организации litert-community на Hugging Face, а также отмечено, что модели .task не поддерживаются.

Ключевые возможности

  • Локальный inference модели на Android: Gello запускает языковую модель прямо на телефоне, поэтому ответы генерируются без отправки prompt’ов во внешний LLM-сервис.
  • Интеграция с Discord-ботом: приложение нативно подключается к Discord и может отвечать в каналах, где установлен бот, что подходит для группового общения.
  • Архитектура foreground service: приложение поддерживает постоянное подключение к Discord Gateway WebSocket, что необходимо для постоянно работающего бота на телефоне.
  • Скользящий буфер контекста канала: входящие сообщения обновляют буфер для каждого канала, по умолчанию на 20 сообщений, чтобы ответы могли учитывать недавнюю историю переписки.
  • Автоматическая поддержка speculative decoding: когда загруженная модель .litertlm включает поддержку MTP drafter, Gello включает speculative decoding для ускорения ответов.
  • Развёртывание на одном телефоне: в репозитории подчёркивается, что весь стек помещается в одно Android-приложение, без Termux, ноутбука или отдельного model server.

Как использовать Gello

Установите Android APK на совместимый телефон, настройте его как Discord-бота и загрузите поддерживаемую модель .litertlm, например протестированную сборку Gemma 4 E2B. После запуска приложение поддерживает foreground service, слушает сообщения Discord, строит prompt’ы на основе недавнего контекста канала и отправляет сгенерированные ответы обратно в канал.

Сценарии использования

  • Ассистент для группового чата: используйте Gello, чтобы добавить локального AI-участника в канал Discord, где несколько человек могут задавать вопросы и получать ответы в одной ветке.
  • Переиспользование старого Android-телефона: превратите запасной телефон 3–5-летней давности в выделенный локальный AI-бокс, который работает постоянно, вместо того чтобы он лежал без дела.
  • Автономная или self-contained схема inference: держите выполнение модели на устройстве для пользователей, которые хотят избежать hosted LLM endpoint или отдельного сервера.
  • Лёгкий эксперимент с edge deployment: проверьте, как небольшая on-device модель ведёт себя как чат-бот в связке с Android, Discord и LiteRT-LM.
  • Локальное бенчмаркинг и итерации модели: изучите, как speculative decoding и поддержка моделей .litertlm влияют на поведение ответов в реальном времени на мобильном железе.

FAQ

Gello запускает модель в cloud? Нет. В репозитории Gello описан как on-device бот: prompt’ы и ответы остаются на Android-телефоне, а модель работает локально через LiteRT-LM.

Какие форматы моделей он поддерживает? В источнике указано, что протестирована поддержка litert-community/gemma-4-E2B-it-litert-lm, и что подойдут любые модели .litertlm из организации litert-community на Hugging Face. Также прямо сказано, что модели .task не поддерживаются.

Нужен ли ноутбук или отдельный сервер? Нет. Проект представлен как одно Android APK, которое напрямую общается с Discord, без Termux, ноутбука или отдельного model server.

Как он обрабатывает контекст переписки? Gello ведёт скользящий буфер недавних сообщений для каждого канала, по умолчанию размером 20 сообщений, и использует этот контекст при генерации ответа.

Зачем упоминается speculative decoding? В репозитории объясняется, что MTP heads у Gemma 4 и path speculative decoding в LiteRT-LM помогают ускорить локальную генерацию ответов за счёт выпуска более чем одного токена за шаг decoding, когда это поддерживается.

Альтернативы

  • OpenClaw: более близкий смежный проект, упомянутый в репозитории. Он тоже открывает локальный ИИ через чат-приложения, но позиционируется как настольный продукт для macOS, Windows и Linux, а не как Android-приложение, ориентированное в первую очередь на телефон.
  • Интеграции облачных чат-ботов: традиционные боты Discord на базе облачных LLM API. Их проще развернуть, если вам нужно управляемое инференс-решение, но они не держат генерацию на телефоне и не обходятся без внешних API-ключей.
  • Самостоятельно размещаемые серверы локальных моделей: конфигурации, где модель запускается на отдельной машине и подключается к чат-приложениям. Они дают более универсальную инфраструктуру, чем Gello, но требуют больше компонентов, чем одно Android-приложение.
  • Другие Android-приложения ИИ на устройстве: мобильные приложения, которые запускают модели локально без интеграции с Discord. Они могут использовать ту же семейство моделей инференса, но не обязательно предназначены для участия в групповых чатах как бот.