Wafer icon

Wafer

Wafer 是面向企业的 LLM 推理平台,通过 serverless API 和专用端点提供开源模型服务,支持 OpenAI 兼容工作流与调优后的生产级部署。

Wafer

企业级 LLM 推理平台

Wafer 是一个面向企业的平台,通过 serverless 和专用推理服务开源大语言模型。其主页将服务定位为面向开源模型的快速 API,而其宣言则将公司使命描述为通过 AI 基础设施优化来最大化每瓦智能。

该平台分为两个主要产品:面向开源模型的 Serverless 访问,无需基础设施或部署开销;以及 Dedicated Inference,面向敏感或关键任务工作负载。网站还表示,专用端点可在 24 小时内完成设置,而 Serverless 端点遵循 OpenAI Chat Completions 规范,以便更容易兼容客户端。

核心能力

开源模型的 Serverless 访问

通过 Serverless 推理访问开源模型,无需管理基础设施或部署开销。

专用推理端点

为需要定制推理设置和可预测性能的关键任务工作负载使用专用端点。

OpenAI 兼容的 API 工作流

使用与 OpenAI Chat Completions 兼容的请求规范发送请求,支持 Serverless 模型上的流式输出、工具调用和 JSON 模式。

服务端缓存计费

针对重复提示、长系统提示、多轮对话和重度 RAG 工作负载,依赖自动提示前缀缓存。

已发布的模型列表

从主页展示的模型中进行选择,包括 GLM-5.1、Kimi-K2.6 和 Qwen 3.5 397B-A17B。

面向工作负载的优化

使用围绕模型、加速器家族、流量模式和生产约束进行设计的性能调优部署。

Wafer 适用场景

  • 快速访问开源模型

    希望调用开源模型而不自行搭建推理栈的团队,可以使用 Serverless API 并避免部署开销。

  • 生产级 AI 工作负载

    有敏感数据或正常运行时间要求的应用,可以使用具有隔离端点和 SLA 保障可用性的 Dedicated Inference。

  • OpenAI 兼容集成

    聊天机器人、Copilot 和 Agent 的构建者可以保留现有的 OpenAI 风格客户端,只需将基础 URL 和 API key 切换到 Wafer。

  • 重复上下文提示

    具有长提示或重复上下文的工作负载,例如多轮支持或 RAG,可以从重复前缀的自动缓存计费中受益。

  • 自定义模型优化

    需要针对特定加速器家族或工作负载配置进行性能调优的模型团队,可以使用围绕这些约束优化的专用部署。

Pros and Cons

Pros

  • 同时提供 serverless 和专用推理选项。
  • 支持与 OpenAI Chat Completions 兼容的请求,便于直接接入。
  • 说明对重复提示前缀采用自动缓存计费。
  • 在主页上公布了基准结果以及延迟-吞吐量对比。
  • 为 Dedicated Inference 提供 99.9% 的月度可用性目标 SLA。

Cons

  • 价格页没有提供定价细节;当前定价 URL 返回 404。
  • 公开主页展示的模型列表较少,仅明确列出三个 Serverless 模型,其他模型只是被提及。
  • 提供来源中没有记录除 OpenAI 兼容客户端之外的集成。

FAQ

Wafer 是做什么的?

Wafer 提供面向开源模型的 serverless 推理,以及用于敏感或生产工作负载的专用端点。

Wafer 可以与 OpenAI 兼容客户端配合使用吗?

是的。Wafer 表示其 Serverless 端点遵循 OpenAI Chat Completions 规范,因此现有客户端只需更改基础 URL 和 API key 即可切换。

缓存是如何工作的?

Wafer 表示,重复的提示前缀会被自动缓存,并按每个模型卡上显示的 Cache 费率计费。缓存发生在服务端,因此无需通过 header 或标志来启用。

Wafer 的专用服务适用于什么场景?

对于 Dedicated Inference,Wafer 表示可以在 24 小时内提供经过定制调优的部署,并提供有 SLA 保障的正常运行时间,且可为受合规约束的工作负载提供零数据保留。

Wafer 上有哪些可用模型?

主页目前列出了三个 Serverless 模型:GLM-5.1、Kimi-K2.6 和 Qwen 3.5 397B-A17B。网站还表示会持续推出更多模型。

Quick Facts

类别
企业级 LLM 推理
产品类型
开源模型托管与服务
部署选项
Serverless 和 Dedicated Inference
API 兼容性
Serverless 使用 OpenAI Chat Completions 规范
SLA
Dedicated Inference 的月度可用性目标为 99.9%
网站
wafer.ai