Acesso Serverless a modelos open-source
Aceda a modelos open-source através de inferência Serverless sem gerir infraestrutura ou overhead de implementação.
Wafer é uma plataforma enterprise de inferência LLM para servir modelos open-source por APIs serverless e endpoints dedicados.
A Wafer é uma plataforma focada em empresas para servir modelos de linguagem grandes open-source através de inferência serverless e dedicada. A sua página inicial posiciona o serviço em torno de APIs rápidas para modelos abertos, enquanto o manifesto enquadra a missão da empresa como maximizar a inteligência por watt através da otimização da infraestrutura de IA.
A plataforma divide-se em duas ofertas principais: acesso Serverless para modelos open-source sem overhead de infraestrutura ou implementação, e Dedicated Inference para cargas de trabalho sensíveis ou críticas. O site também diz que os endpoints dedicados podem ser configurados em menos de 24 horas e que os endpoints Serverless seguem o schema do OpenAI Chat Completions para facilitar a compatibilidade com clientes.
Aceda a modelos open-source através de inferência Serverless sem gerir infraestrutura ou overhead de implementação.
Use endpoints dedicados para cargas de trabalho críticas que precisam de definições de inferência personalizadas e desempenho previsível.
Envie pedidos com um schema compatível com o OpenAI Chat Completions, incluindo streaming, uso de ferramentas e modo JSON em modelos Serverless.
Conte com cache automático do prefixo de prompts para prompts repetidos, prompts de sistema longos, chats multi-turno e cargas de trabalho intensivas em RAG.
Escolha entre os modelos mostrados na página inicial, incluindo GLM-5.1, Kimi-K2.6 e Qwen 3.5 397B-A17B.
Use implementações otimizadas para desempenho, concebidas em torno do modelo, da família de aceleradores, dos padrões de tráfego e das restrições de produção.
Equipas que querem chamar modelos open-source sem montar a sua própria stack de inferência podem usar as APIs Serverless e evitar overhead de implementação.
Aplicações com dados sensíveis ou requisitos de disponibilidade podem usar Dedicated Inference com endpoints isolados e disponibilidade respaldada por SLA.
Criadores de chatbots, copilots e agentes podem manter clientes existentes no estilo OpenAI e trocar a URL base e a chave de API pela Wafer.
Cargas de trabalho com prompts longos ou contexto repetido, como suporte multi-turno ou RAG, podem beneficiar de preços automáticos de cache em prefixos repetidos.
Equipas de modelos que precisam de desempenho ajustado para uma família de aceleradores específica ou perfil de carga de trabalho podem usar implementações dedicadas otimizadas para essas restrições.
Wafer fornece inferência serverless para modelos open-source e endpoints dedicados para cargas de trabalho sensíveis ou de produção.
Sim. A Wafer diz que os seus endpoints Serverless seguem o schema do OpenAI Chat Completions, para que os clientes existentes possam mudar alterando a URL base e a chave de API.
A Wafer diz que os prefixos de prompts repetidos são armazenados em cache automaticamente e cobrados à taxa de Cache mostrada em cada cartão de modelo. O cache é no lado do servidor, por isso não há um cabeçalho ou sinalizador para ativá-lo.
Para Dedicated Inference, a Wafer diz que pode provisionar implementações ajustadas em menos de 24 horas e oferece disponibilidade com respaldo de SLA, com retenção zero de dados disponível para cargas de trabalho sujeitas a requisitos de conformidade.
A página inicial lista hoje três modelos Serverless: GLM-5.1, Kimi-K2.6 e Qwen 3.5 397B-A17B. O site também diz que mais modelos estão a ser lançados.
Pioneer AI is an agent for fine-tuning and continuously improving open-source language models. It helps teams build production-ready models for tasks like classification and extraction without assembling a manual training pipeline.
AakarDev AI helps teams manage AI provider access, project-level setups, logs, and analytics from one dashboard. It supports BYOK workflows and lists providers including OpenAI, Google Gemini, Anthropic, Groq, Mistral AI, and Perplexity AI.
Benchspan is an AI agent security platform that discovers agents, blocks prompt injection and data exfiltration in real time, and supports pre-launch red teaming. It is aimed at teams running agents in production and includes Python and TypeScript SDKs.
Edgee is an AI gateway for coding agents and LLM-powered apps. It compresses token traffic, routes requests across models, and provides observability and team controls to help reduce cost and keep sessions running.
Codex Plugins bundle reusable skills, app integrations, and MCP servers into workflows you can install in the Codex app or use from Codex CLI. They help extend Codex with connected-service tasks, reusable instructions, and shared team workflows.
Wallie is an open-source AI streamer that watches your screen, hears chat, and generates live commentary in a configurable persona. It runs locally on your machine with your own keys and is aimed at faceless content, autonomous streams, and real-time reactions.