什么是 Gello?
Gello 是一款 Android 应用,可将 Hugging Face 语言模型完全在设备上运行,并作为 Discord 机器人接入。它的设计目标是让 Discord 频道中的用户可以直接与机器人对话,而回复则在手机本地生成,而不是通过云端 API。
该项目基于单个 APK 和持久的 Discord 连接构建,手机运行前台服务,在设备端处理传入消息、提示词组装和回复。仓库说明支持将 Gemma 4 E2B 作为来自 litert-community Hugging Face 组织的 .litertlm 模型包使用,并注明不支持 .task 模型。
主要功能
- Android 端侧模型推理:Gello 在手机本地运行语言模型,因此回复生成时不会把提示词发送到外部 LLM 服务。
- Discord 机器人集成:它可原生连接到 Discord,并在已安装机器人的频道中回复,适合群聊互动。
- 前台服务架构:应用保持与 Discord Gateway WebSocket 的持久连接,这对从手机运行的常久在线机器人是必要的。
- 滚动频道上下文缓冲区:传入消息会更新每个频道的缓冲区,默认保留 20 条消息,以便回复使用最近的对话历史。
- 自动 speculative decoding 支持:当加载的
.litertlm模型包含 MTP drafter 支持时,Gello 会启用 speculative decoding 以提升回复速度。 - 单机部署:仓库强调完整方案可装进一个 Android 应用,无需 Termux、笔记本电脑或单独的模型服务器。
如何使用 Gello
在兼容的手机上安装 Android APK,将其配置为 Discord 机器人,并加载受支持的 .litertlm 模型,例如已测试的 Gemma 4 E2B 构建。运行后,应用会保持前台服务激活,监听 Discord 消息,基于最近的频道上下文构建提示词,并将生成的回复发回频道中。
使用场景
- 群聊助手:使用 Gello 将本地 AI 成员放入 Discord 频道,让多人在同一线程中提问并获得回复。
- 旧 Android 手机再利用:把一台 3 到 5 年的闲置手机当作专用、常久在线的本地 AI 设备,而不是让它放在抽屉里闲置。
- 离线或自包含推理方案:将模型执行保留在设备上,适合想避免托管 LLM 端点或单独服务器机器的用户。
- 轻量边缘部署实验:测试小型端侧模型在与 Android、Discord 和 LiteRT-LM 配合时,作为聊天机器人会表现如何。
- 本地模型基准测试与迭代:探索 speculative decoding 和
.litertlm模型支持如何影响移动硬件上的实时回复表现。
常见问题
Gello 会在云端运行模型吗?
不会。仓库将 Gello 描述为端侧机器人:提示词和回复都保留在 Android 手机上,模型通过 LiteRT-LM 在本地运行。
它支持哪些模型格式?
源文说明,已测试支持 litert-community/gemma-4-E2B-it-litert-lm,并且来自 litert-community Hugging Face 组织的任何 .litertlm 模型都应可用。它明确表示不支持 .task 模型。
它需要笔记本电脑或单独服务器吗?
不需要。该项目被描述为一个直接与 Discord 通信的单个 Android APK,不需要 Termux、笔记本电脑或单独的模型服务器。
它如何处理对话上下文?
Gello 为每个频道维护一个最近消息的滚动缓冲区,默认大小为 20 条消息,并在生成回复时使用这些上下文。
为什么会提到 speculative decoding?
仓库解释说,Gemma 4 的 MTP heads 和 LiteRT-LM 的 speculative decoding 路径,在支持时可通过每次解码步骤生成多个 token 来加快端侧回复生成速度。
替代方案
- OpenClaw:仓库中提到的一个更接近的相关项目。它也会通过聊天应用公开本地 AI,但它定位为面向 macOS、Windows 和 Linux 的桌面产品,而不是优先面向手机的 Android 应用。
- 托管式聊天机器人集成:由云端 LLM API 驱动的传统 Discord 机器人。如果你想要托管推理,这类方案更容易部署,但它们不会把生成留在手机上,也无法避免使用外部 API 密钥。
- 自托管本地模型服务器:在单独的机器上运行模型,并将该模型连接到聊天应用的方案。它们提供比 Gello 更通用的基础设施,但需要的组件也比单个 Android 应用更多。
- 其他端侧 Android AI 应用:在本地运行模型、但不集成 Discord 的移动应用。它们可能使用相同的推理模型家族,但不一定专为以机器人身份参与群聊而设计。
替代品
AakarDev AI
AakarDev AI 是一个强大的平台,通过无缝的向量数据库集成简化 AI 应用程序的开发,实现快速部署和可扩展性。
BookAI.chat
BookAI允许您通过简单提供书名和作者与您的书籍进行AI聊天。
BenchSpan
BenchSpan 支持 AI agent 基准并行运行,自动记录得分与失败并整理运行历史;按提交标签复现,减少失败重跑浪费的 token。
Edgee
Edgee 边缘原生 AI 网关:在请求到达 LLM 供应商前压缩提示词,提供单一 OpenAI 兼容 API,路由 200+ 模型并按 token 降本降延迟。
Codex Plugins
使用 Codex Plugins 将技能、应用集成和 MCP 服务器打包成可复用工作流,扩展 Codex 访问 Gmail、Google Drive 与 Slack 等工具。
Ably Chat
Ably Chat 提供聊天 API 和 SDK,用于自定义实时聊天应用:支持反应、在线/房间状态及消息编辑/删除,面向高并发场景。