Gello

Gello란 무엇인가?

Gello는 Hugging Face 언어 모델을 완전히 온디바이스에서 실행하고, 이를 Discord에 봇으로 연결하는 Android 앱입니다. Discord 채널의 사람들이 봇과 직접 대화할 수 있도록 설계되었으며, 응답은 클라우드 API가 아니라 휴대폰에서 로컬로 생성됩니다.

이 프로젝트는 단일 APK와 지속적인 Discord 연결을 중심으로 구성되어 있으며, 휴대폰이 포그라운드 서비스를 실행하고 들어오는 메시지 처리, 프롬프트 구성, 응답 생성을 기기에서 처리합니다. 저장소는 litert-community Hugging Face 조직의 .litertlm 모델로 패키징된 Gemma 4 E2B 지원을 언급하며, .task 모델은 지원하지 않는다고 명시합니다.

주요 기능

Android에서 온디바이스 모델 추론: Gello는 언어 모델을 휴대폰에서 로컬로 실행하므로, 외부 LLM 서비스로 프롬프트를 보내지 않고 응답이 생성됩니다.
Discord 봇 통합: Discord에 기본적으로 연결되어 봇이 설치된 채널에 응답할 수 있어, 그룹 채팅 상호작용에 적합합니다.
포그라운드 서비스 아키텍처: 앱은 Discord Gateway WebSocket과의 지속적인 연결을 유지하며, 이는 휴대폰에서 항상 켜진 봇을 실행하는 데 필요합니다.
순환 채널 컨텍스트 버퍼: 들어오는 메시지는 채널별 버퍼를 갱신하며, 기본값은 20개 메시지로 최근 대화 기록을 사용해 응답할 수 있습니다.
자동 speculative decoding 지원: 로드된 .litertlm 모델에 MTP drafter 지원이 포함되어 있으면, Gello는 speculative decoding을 활성화해 응답 속도를 개선합니다.
단일 휴대폰 배포: 저장소는 전체 스택이 하나의 Android 앱에 들어가므로 Termux, 노트북, 별도의 모델 서버가 필요 없다는 점을 강조합니다.

Gello 사용 방법

호환되는 휴대폰에 Android APK를 설치하고, Discord 봇으로 설정한 뒤, 테스트된 Gemma 4 E2B 빌드와 같은 지원되는 .litertlm 모델을 로드합니다. 실행되면 앱은 포그라운드 서비스를 활성 상태로 유지하고, Discord 메시지를 수신하며, 최근 채널 컨텍스트로부터 프롬프트를 구성하고, 생성된 응답을 다시 채널에 게시합니다.

활용 사례

그룹 채팅 어시스턴트: Gello를 사용해 Discord 채널 안에 로컬 AI 참여자를 두어 여러 사람이 같은 스레드에서 질문하고 응답을 받을 수 있습니다.
오래된 Android 휴대폰 재활용: 3~5년 된 예비 휴대폰을 서랍에 방치하지 않고 전용 상시 실행 로컬 AI 박스로 활용할 수 있습니다.
오프라인 또는 자체 포함형 추론 환경: 호스팅된 LLM 엔드포인트나 별도의 서버 머신을 피하고 싶은 사용자를 위해 모델 실행을 기기 내에 유지합니다.
경량 엣지 배포 실험: Android, Discord, LiteRT-LM과 함께 작은 온디바이스 모델이 챗봇으로 어떻게 동작하는지 테스트할 수 있습니다.
로컬 모델 벤치마킹 및 반복: speculative decoding과 .litertlm 모델 지원이 모바일 하드웨어에서의 실시간 응답 동작에 어떤 영향을 주는지 살펴볼 수 있습니다.

FAQ

Gello는 모델을 클라우드에서 실행하나요? 아니요. 저장소는 Gello를 온디바이스 봇으로 설명하며, 프롬프트와 응답은 Android 휴대폰에 그대로 남고 모델은 LiteRT-LM을 통해 로컬로 실행됩니다.

어떤 모델 형식을 지원하나요? 소스에 따르면 테스트된 지원 대상은 litert-community/gemma-4-E2B-it-litert-lm이며, litert-community Hugging Face 조직의 어떤 .litertlm 모델이든 작동해야 한다고 합니다. .task 모델은 지원하지 않는다고 명시합니다.

노트북이나 별도 서버가 필요한가요? 아니요. 이 프로젝트는 Termux, 노트북, 별도의 모델 서버 없이 Discord와 직접 통신하는 단일 Android APK로 제시됩니다.

대화 컨텍스트는 어떻게 처리하나요? Gello는 채널별 최근 메시지의 순환 버퍼를 유지하며, 기본 크기는 20개 메시지이고, 응답 생성 시 이 컨텍스트를 사용합니다.

speculative decoding은 왜 언급되나요? 저장소는 Gemma 4의 MTP 헤드와 LiteRT-LM의 speculative decoding 경로가 지원될 경우 디코딩 단계마다 한 토큰보다 더 많이 생성해 온디바이스 응답 생성을 더 빠르게 만든다고 설명합니다.

대안

OpenClaw: 저장소에서 언급되는 더 가까운 인접 프로젝트입니다. 채팅 앱을 통해 로컬 AI를 노출하는 점은 같지만, 휴대폰 우선 Android 앱이 아니라 macOS, Windows, Linux용 데스크톱 제품으로 소개됩니다.
Hosted chatbot integrations: 클라우드 LLM API로 구동되는 전통적인 Discord 봇입니다. 관리형 추론을 원할 때는 배포가 더 쉽지만, 생성이 휴대폰에서 유지되거나 외부 API 키를 피하지는 못합니다.
Self-hosted local model servers: 별도 머신에서 모델을 실행하고 그 모델을 채팅 앱에 연결하는 구성입니다. Gello보다 더 범용적인 인프라를 제공하지만, 단일 Android 앱보다 더 많은 구성 요소가 필요합니다.
Other on-device Android AI apps: Discord 통합 없이 모델을 로컬에서 실행하는 모바일 앱입니다. 같은 추론 모델 계열을 공유할 수는 있지만, 그룹 채팅에 봇으로 참여하도록 설계된 것은 아닙니다.

Gello

Gello란 무엇인가?

주요 기능

Gello 사용 방법

활용 사례

FAQ

대안

대안

AakarDev AI

BookAI.chat

BenchSpan

Edgee

Codex Plugins

Ably Chat