Gello

Gello — Android-приложение, которое локально запускает языковую модель Hugging Face и подключает её к Discord как бота.

Что такое Gello?

Gello — это Android-приложение, которое полностью локально запускает языковую модель Hugging Face и подключает её к Discord как бота. Оно сделано так, чтобы участники канала Discord могли общаться с ботом напрямую, а ответы генерировались локально на телефоне, а не через cloud API.

Проект построен вокруг одного APK и постоянного подключения к Discord: телефон работает как foreground service и обрабатывает входящие сообщения, сборку prompt’ов и ответы прямо на устройстве. В репозитории указана поддержка Gemma 4 E2B, упакованной как модель .litertlm из организации litert-community на Hugging Face, а также отмечено, что модели .task не поддерживаются.

Ключевые возможности

Локальный inference модели на Android: Gello запускает языковую модель прямо на телефоне, поэтому ответы генерируются без отправки prompt’ов во внешний LLM-сервис.
Интеграция с Discord-ботом: приложение нативно подключается к Discord и может отвечать в каналах, где установлен бот, что подходит для группового общения.
Архитектура foreground service: приложение поддерживает постоянное подключение к Discord Gateway WebSocket, что необходимо для постоянно работающего бота на телефоне.
Скользящий буфер контекста канала: входящие сообщения обновляют буфер для каждого канала, по умолчанию на 20 сообщений, чтобы ответы могли учитывать недавнюю историю переписки.
Автоматическая поддержка speculative decoding: когда загруженная модель .litertlm включает поддержку MTP drafter, Gello включает speculative decoding для ускорения ответов.
Развёртывание на одном телефоне: в репозитории подчёркивается, что весь стек помещается в одно Android-приложение, без Termux, ноутбука или отдельного model server.

Как использовать Gello

Установите Android APK на совместимый телефон, настройте его как Discord-бота и загрузите поддерживаемую модель .litertlm, например протестированную сборку Gemma 4 E2B. После запуска приложение поддерживает foreground service, слушает сообщения Discord, строит prompt’ы на основе недавнего контекста канала и отправляет сгенерированные ответы обратно в канал.

Сценарии использования

Ассистент для группового чата: используйте Gello, чтобы добавить локального AI-участника в канал Discord, где несколько человек могут задавать вопросы и получать ответы в одной ветке.
Переиспользование старого Android-телефона: превратите запасной телефон 3–5-летней давности в выделенный локальный AI-бокс, который работает постоянно, вместо того чтобы он лежал без дела.
Автономная или self-contained схема inference: держите выполнение модели на устройстве для пользователей, которые хотят избежать hosted LLM endpoint или отдельного сервера.
Лёгкий эксперимент с edge deployment: проверьте, как небольшая on-device модель ведёт себя как чат-бот в связке с Android, Discord и LiteRT-LM.
Локальное бенчмаркинг и итерации модели: изучите, как speculative decoding и поддержка моделей .litertlm влияют на поведение ответов в реальном времени на мобильном железе.

FAQ

Gello запускает модель в cloud? Нет. В репозитории Gello описан как on-device бот: prompt’ы и ответы остаются на Android-телефоне, а модель работает локально через LiteRT-LM.

Какие форматы моделей он поддерживает? В источнике указано, что протестирована поддержка litert-community/gemma-4-E2B-it-litert-lm, и что подойдут любые модели .litertlm из организации litert-community на Hugging Face. Также прямо сказано, что модели .task не поддерживаются.

Нужен ли ноутбук или отдельный сервер? Нет. Проект представлен как одно Android APK, которое напрямую общается с Discord, без Termux, ноутбука или отдельного model server.

Как он обрабатывает контекст переписки? Gello ведёт скользящий буфер недавних сообщений для каждого канала, по умолчанию размером 20 сообщений, и использует этот контекст при генерации ответа.

Зачем упоминается speculative decoding? В репозитории объясняется, что MTP heads у Gemma 4 и path speculative decoding в LiteRT-LM помогают ускорить локальную генерацию ответов за счёт выпуска более чем одного токена за шаг decoding, когда это поддерживается.

Альтернативы

OpenClaw: более близкий смежный проект, упомянутый в репозитории. Он тоже открывает локальный ИИ через чат-приложения, но позиционируется как настольный продукт для macOS, Windows и Linux, а не как Android-приложение, ориентированное в первую очередь на телефон.
Интеграции облачных чат-ботов: традиционные боты Discord на базе облачных LLM API. Их проще развернуть, если вам нужно управляемое инференс-решение, но они не держат генерацию на телефоне и не обходятся без внешних API-ключей.
Самостоятельно размещаемые серверы локальных моделей: конфигурации, где модель запускается на отдельной машине и подключается к чат-приложениям. Они дают более универсальную инфраструктуру, чем Gello, но требуют больше компонентов, чем одно Android-приложение.
Другие Android-приложения ИИ на устройстве: мобильные приложения, которые запускают модели локально без интеграции с Discord. Они могут использовать ту же семейство моделей инференса, но не обязательно предназначены для участия в групповых чатах как бот.

Альтернативы

AakarDev AI

AakarDev AI — это мощная платформа, которая упрощает разработку приложений ИИ с бесшовной интеграцией векторных баз данных, позволяя быстрое развертывание и масштабируемость.

BookAI.chat

BookAI позволяет вам общаться с вашими книгами, просто предоставив название и автора.

BenchSpan

BenchSpan запускает AI agent бенчмарки параллельно, фиксирует результаты и ошибки в истории прогонов, помогает воспроизводить их по commit hash.

Edgee

Edgee — edge-native AI gateway: сжимает промпты перед LLM-провайдерами и дает единый OpenAI-compatible API для маршрутизации 200+ моделей.

Codex Plugins

Используйте Codex Plugins, чтобы объединять skills, интеграции приложений и MCP-серверы в повторно используемые сценарии для доступа к Gmail, Google Drive и Slack.

Ably Chat

Ably Chat — chat API и SDK для кастомных realtime-приложений: реакции, presence и правка/удаление сообщений для чатов в масштабе.