Gello icon

Gello

Gello 是一款 Android 应用,可在本地运行 Hugging Face 语言模型,并将其作为 Discord 机器人使用。适合把闲置手机变成常久在线、端侧 AI 群聊成员。

Gello

什么是 Gello?

Gello 是一款 Android 应用,可将 Hugging Face 语言模型完全在设备上运行,并作为 Discord 机器人接入。它的设计目标是让 Discord 频道中的用户可以直接与机器人对话,而回复则在手机本地生成,而不是通过云端 API。

该项目基于单个 APK 和持久的 Discord 连接构建,手机运行前台服务,在设备端处理传入消息、提示词组装和回复。仓库说明支持将 Gemma 4 E2B 作为来自 litert-community Hugging Face 组织的 .litertlm 模型包使用,并注明不支持 .task 模型。

主要功能

  • Android 端侧模型推理:Gello 在手机本地运行语言模型,因此回复生成时不会把提示词发送到外部 LLM 服务。
  • Discord 机器人集成:它可原生连接到 Discord,并在已安装机器人的频道中回复,适合群聊互动。
  • 前台服务架构:应用保持与 Discord Gateway WebSocket 的持久连接,这对从手机运行的常久在线机器人是必要的。
  • 滚动频道上下文缓冲区:传入消息会更新每个频道的缓冲区,默认保留 20 条消息,以便回复使用最近的对话历史。
  • 自动 speculative decoding 支持:当加载的 .litertlm 模型包含 MTP drafter 支持时,Gello 会启用 speculative decoding 以提升回复速度。
  • 单机部署:仓库强调完整方案可装进一个 Android 应用,无需 Termux、笔记本电脑或单独的模型服务器。

如何使用 Gello

在兼容的手机上安装 Android APK,将其配置为 Discord 机器人,并加载受支持的 .litertlm 模型,例如已测试的 Gemma 4 E2B 构建。运行后,应用会保持前台服务激活,监听 Discord 消息,基于最近的频道上下文构建提示词,并将生成的回复发回频道中。

使用场景

  • 群聊助手:使用 Gello 将本地 AI 成员放入 Discord 频道,让多人在同一线程中提问并获得回复。
  • 旧 Android 手机再利用:把一台 3 到 5 年的闲置手机当作专用、常久在线的本地 AI 设备,而不是让它放在抽屉里闲置。
  • 离线或自包含推理方案:将模型执行保留在设备上,适合想避免托管 LLM 端点或单独服务器机器的用户。
  • 轻量边缘部署实验:测试小型端侧模型在与 Android、Discord 和 LiteRT-LM 配合时,作为聊天机器人会表现如何。
  • 本地模型基准测试与迭代:探索 speculative decoding 和 .litertlm 模型支持如何影响移动硬件上的实时回复表现。

常见问题

Gello 会在云端运行模型吗?
不会。仓库将 Gello 描述为端侧机器人:提示词和回复都保留在 Android 手机上,模型通过 LiteRT-LM 在本地运行。

它支持哪些模型格式?
源文说明,已测试支持 litert-community/gemma-4-E2B-it-litert-lm,并且来自 litert-community Hugging Face 组织的任何 .litertlm 模型都应可用。它明确表示不支持 .task 模型。

它需要笔记本电脑或单独服务器吗?
不需要。该项目被描述为一个直接与 Discord 通信的单个 Android APK,不需要 Termux、笔记本电脑或单独的模型服务器。

它如何处理对话上下文?
Gello 为每个频道维护一个最近消息的滚动缓冲区,默认大小为 20 条消息,并在生成回复时使用这些上下文。

为什么会提到 speculative decoding?
仓库解释说,Gemma 4 的 MTP heads 和 LiteRT-LM 的 speculative decoding 路径,在支持时可通过每次解码步骤生成多个 token 来加快端侧回复生成速度。

替代方案

  • OpenClaw:仓库中提到的一个更接近的相关项目。它也会通过聊天应用公开本地 AI,但它定位为面向 macOS、Windows 和 Linux 的桌面产品,而不是优先面向手机的 Android 应用。
  • 托管式聊天机器人集成:由云端 LLM API 驱动的传统 Discord 机器人。如果你想要托管推理,这类方案更容易部署,但它们不会把生成留在手机上,也无法避免使用外部 API 密钥。
  • 自托管本地模型服务器:在单独的机器上运行模型,并将该模型连接到聊天应用的方案。它们提供比 Gello 更通用的基础设施,但需要的组件也比单个 Android 应用更多。
  • 其他端侧 Android AI 应用:在本地运行模型、但不集成 Discord 的移动应用。它们可能使用相同的推理模型家族,但不一定专为以机器人身份参与群聊而设计。