FreeLLMAPI icon

FreeLLMAPI

FreeLLMAPI è un proxy compatibile con OpenAI che instrada le richieste tra i tier gratuiti di più provider LLM dietro un unico endpoint /v1.

FreeLLMAPI

Panoramica

FreeLLMAPI è un proxy compatibile con OpenAI per instradare le richieste tra i tier gratuiti di più provider LLM dietro un singolo endpoint /v1. Il progetto si propone come un modo per combinare piani gratuiti individuali in un'unica superficie di inferenza condivisa per sperimentazione personale.

Supporta un lungo elenco di integrazioni con provider, oltre a qualsiasi endpoint personalizzato compatibile con OpenAI come llama.cpp, LM Studio, vLLM o un'istanza locale di Ollama. Il proxy gestisce il routing dei modelli, il failover automatico, l'archiviazione cifrata delle chiavi upstream e una dashboard per gestire le chiavi e rivedere l'utilizzo.

Funzionalità

Riunisce più provider gratuiti

Aggrega i tier gratuiti di provider tra cui Google, Groq, Cerebras, NVIDIA, Mistral, OpenRouter, GitHub Models, Cohere, Cloudflare, HuggingFace, Z.ai, Ollama, Kilo, Pollinations, LLM7, OVH AI Endpoints e OpenCode Zen dietro un'unica superficie compatibile con OpenAI.

Routing e failover automatici

Usa un router che seleziona un modello per ogni richiesta, passa al provider successivo quando uno è limitato nel rate, restituisce 429/5xx o va in timeout, e mantiene brevi cooldown per le chiavi fallite.

Tracciamento dell'utilizzo per chiave

Tiene traccia di RPM, RPD, TPM e TPD per provider, modello e chiave, e mantiene sessioni sticky sullo stesso modello per circa 30 minuti durante conversazioni multi-turno.

Chiavi cifrate e accesso unificato all'app

Memorizza le chiavi API dei provider cifrate con AES-256-GCM in SQLite, mentre i client si autenticano al proxy con un unico bearer token unificato.

Superficie API compatibile con OpenAI

Espone /v1/chat/completions, /v1/models, /v1/responses, /v1/embeddings, streaming, non-streaming e il tool calling in stile OpenAI per client compatibili.

Dashboard e analisi integrate

Include una dashboard di amministrazione React + Vite per gestire le chiavi, ordinare le catene di fallback, visualizzare le analisi ed eseguire prompt in una playground.

Casi d'uso

  • Usa un singolo endpoint API per app LLM

    Punta un SDK OpenAI, LangChain, LlamaIndex, Continue o un client simile al proxy e mantieni lo stesso codice dell'applicazione mentre sostituisci il percorso upstream con /v1.

  • Distribuisci le richieste tra i tier gratuiti

    Aggiungi chiavi dei provider per diversi servizi a tier gratuito e lascia che il router scelga un modello disponibile, quindi esegui il failover automatico quando un provider è limitato o non disponibile.

  • Self-host di uno stack proxy personale

    Esegui la configurazione Docker Compose in locale o su un piccolo server per mantenere API, dashboard e dati SQLite in un unico ambiente self-hosted.

  • Gestisci le chiavi e monitora l'utilizzo

    Usa la dashboard di amministrazione per riordinare le catene di fallback, ispezionare latenza e utilizzo dei token, e testare i prompt prima di collegare un client al proxy.

  • Instrada verso endpoint locali o remoti personalizzati

    Collega un backend personalizzato compatibile con OpenAI come LM Studio, llama.cpp, vLLM o Ollama locale tramite lo stesso router unificato.

Pros and Cons

Pros

  • Combina molti provider a tier gratuito dietro un unico endpoint compatibile con OpenAI.
  • Supporta il fallback automatico quando un provider è rate-limited, va in errore o va in timeout.
  • Memorizza le chiavi upstream cifrate a riposo con AES-256-GCM.
  • Funziona con un'ampia gamma di client e SDK compatibili con OpenAI cambiando la base URL.
  • Include una dashboard self-hosted per la gestione delle chiavi e l'analisi.

Cons

  • È esplicitamente limitato alla sperimentazione personale e a una configurazione single-user, non alla fatturazione di team multi-tenant.
  • Alcune aree dell'API OpenAI non sono implementate, tra cui la generazione di immagini, l'audio, i completions legacy, la moderation e i completions con n > 1.

FAQ

Quali client possono usare FreeLLMAPI?

FreeLLMAPI è progettato per funzionare con client compatibili con OpenAI. Il README indica che puoi puntare qualsiasi SDK OpenAI o client compatibile come LangChain, LlamaIndex, Continue o Hermes al proxy cambiando l'URL di base.

Come viene normalmente distribuito FreeLLMAPI?

La guida Docker dice che Docker Compose è il modo consigliato per eseguirlo per uso personale. Serve l'API e la dashboard da un solo processo sulla porta 3001, con SQLite persistito in un volume nominato.

Quali endpoint e flussi in stile OpenAI sono supportati?

Il README dice che il proxy implementa /v1/chat/completions, /v1/models, /v1/responses, /v1/embeddings, risposte in streaming e non in streaming, e il tool calling in stile OpenAI. Non implementa generazione di immagini, audio, completions legacy, moderation, più completions per richiesta o fatturazione per utente.

I team possono usarlo con autenticazione multi-tenant?

Il progetto è costruito attorno a una configurazione single-user. Il README afferma esplicitamente che la fatturazione per utente e l'autenticazione multi-tenant non sono ancora supportate.

Quick Facts

Categoria
Strumento per sviluppatori
Uso principale
Proxy LLM compatibile con OpenAI
Distribuzione
Docker Compose o self-hosting con Node 20+
Modello di autenticazione
Bearer token unificato per le app; accesso admin con email/password
Dominio sorgente
github.com
Prezzo
Progetto open source; la pagina prezzi di GitHub è stata esaminata per il contesto di hosting, ma il prodotto in sé non presenta un piano a pagamento