Wafer icon

Wafer

Wafer é uma plataforma enterprise de inferência LLM para servir modelos open-source por APIs serverless e endpoints dedicados.

Wafer

Plataforma enterprise de inferência LLM

A Wafer é uma plataforma focada em empresas para servir modelos de linguagem grandes open-source através de inferência serverless e dedicada. A sua página inicial posiciona o serviço em torno de APIs rápidas para modelos abertos, enquanto o manifesto enquadra a missão da empresa como maximizar a inteligência por watt através da otimização da infraestrutura de IA.

A plataforma divide-se em duas ofertas principais: acesso Serverless para modelos open-source sem overhead de infraestrutura ou implementação, e Dedicated Inference para cargas de trabalho sensíveis ou críticas. O site também diz que os endpoints dedicados podem ser configurados em menos de 24 horas e que os endpoints Serverless seguem o schema do OpenAI Chat Completions para facilitar a compatibilidade com clientes.

Capacidades principais

Acesso Serverless a modelos open-source

Aceda a modelos open-source através de inferência Serverless sem gerir infraestrutura ou overhead de implementação.

Endpoints de inferência dedicados

Use endpoints dedicados para cargas de trabalho críticas que precisam de definições de inferência personalizadas e desempenho previsível.

Fluxo de trabalho de API compatível com OpenAI

Envie pedidos com um schema compatível com o OpenAI Chat Completions, incluindo streaming, uso de ferramentas e modo JSON em modelos Serverless.

Preço de cache no lado do servidor

Conte com cache automático do prefixo de prompts para prompts repetidos, prompts de sistema longos, chats multi-turno e cargas de trabalho intensivas em RAG.

Linha de modelos publicada

Escolha entre os modelos mostrados na página inicial, incluindo GLM-5.1, Kimi-K2.6 e Qwen 3.5 397B-A17B.

Otimização específica por carga de trabalho

Use implementações otimizadas para desempenho, concebidas em torno do modelo, da família de aceleradores, dos padrões de tráfego e das restrições de produção.

Onde a Wafer se encaixa

  • Acesso rápido a modelos open-source

    Equipas que querem chamar modelos open-source sem montar a sua própria stack de inferência podem usar as APIs Serverless e evitar overhead de implementação.

  • Cargas de trabalho de IA em produção

    Aplicações com dados sensíveis ou requisitos de disponibilidade podem usar Dedicated Inference com endpoints isolados e disponibilidade respaldada por SLA.

  • Integrações compatíveis com OpenAI

    Criadores de chatbots, copilots e agentes podem manter clientes existentes no estilo OpenAI e trocar a URL base e a chave de API pela Wafer.

  • Prompts com contexto repetido

    Cargas de trabalho com prompts longos ou contexto repetido, como suporte multi-turno ou RAG, podem beneficiar de preços automáticos de cache em prefixos repetidos.

  • Otimização de modelos personalizada

    Equipas de modelos que precisam de desempenho ajustado para uma família de aceleradores específica ou perfil de carga de trabalho podem usar implementações dedicadas otimizadas para essas restrições.

Pros and Cons

Pros

  • Oferece opções de inferência serverless e dedicada.
  • Suporta pedidos compatíveis com o OpenAI Chat Completions para uma utilização mais fácil como substituição direta.
  • Descreve faturação automática de cache para prefixos de prompts repetidos.
  • Publica resultados de benchmark e comparações de latência e throughput na página inicial.
  • Fornece um SLA com meta de disponibilidade mensal de 99,9% para Dedicated Inference.

Cons

  • Os detalhes de preços não estão disponíveis na página de preços; o URL de preços atualmente devolve um erro 404.
  • A página pública inicial mostra uma lista limitada de modelos, com três modelos Serverless nomeados explicitamente e mais apenas sugeridos.
  • Integrações para além de clientes compatíveis com OpenAI não estão documentadas nas fontes fornecidas.

FAQ

O que a Wafer faz?

Wafer fornece inferência serverless para modelos open-source e endpoints dedicados para cargas de trabalho sensíveis ou de produção.

A Wafer funciona com clientes compatíveis com a OpenAI?

Sim. A Wafer diz que os seus endpoints Serverless seguem o schema do OpenAI Chat Completions, para que os clientes existentes possam mudar alterando a URL base e a chave de API.

Como funciona o cache?

A Wafer diz que os prefixos de prompts repetidos são armazenados em cache automaticamente e cobrados à taxa de Cache mostrada em cada cartão de modelo. O cache é no lado do servidor, por isso não há um cabeçalho ou sinalizador para ativá-lo.

Para que serve a oferta dedicada da Wafer?

Para Dedicated Inference, a Wafer diz que pode provisionar implementações ajustadas em menos de 24 horas e oferece disponibilidade com respaldo de SLA, com retenção zero de dados disponível para cargas de trabalho sujeitas a requisitos de conformidade.

Quais modelos estão disponíveis na Wafer?

A página inicial lista hoje três modelos Serverless: GLM-5.1, Kimi-K2.6 e Qwen 3.5 397B-A17B. O site também diz que mais modelos estão a ser lançados.

Quick Facts

Categoria
Inferência LLM enterprise
Tipo de produto
Hospedagem e serving de modelos open-source
Opções de implementação
Serverless e Dedicated Inference
Compatibilidade da API
Schema OpenAI Chat Completions para Serverless
SLA
Meta de disponibilidade mensal de 99,9% para Dedicated Inference
Website
wafer.ai

Alternativas ao Wafer

Wafer - AI Tool, Features, Use Cases & Alternatives | UStack