Wafer icon

Wafer

Wafer 是企業級 LLM 推論平台,透過 serverless API 與專屬端點提供開源模型服務,支援快速存取、OpenAI 相容工作流程與生產部署優化。

Wafer

企業級 LLM 推論平台

Wafer 是一個以企業為核心的平臺,透過 serverless 與專屬推論來提供開源大型語言模型服務。其首頁將服務定位為為開源模型提供快速 API,而其宣言則將公司使命描述為透過 AI 基礎架構最佳化,將每瓦智慧發揮到最大。

此平台分為兩項主要服務:Serverless 存取開源模型,無需基礎架構或部署開銷;以及 Dedicated Inference,適用於敏感或關鍵任務工作負載。網站也表示,專屬端點可在 24 小時內完成設定,而 Serverless 端點遵循 OpenAI Chat Completions 架構,方便用戶端相容整合。

核心功能

Serverless 存取開源模型

透過 Serverless 推論存取開源模型,無須管理基礎架構或部署負擔。

專屬推論端點

為需要客製化推論設定與可預測效能的關鍵任務工作負載使用專屬端點。

OpenAI 相容 API 工作流程

以相容 OpenAI Chat Completions 的架構送出請求,並支援 Serverless 模型的串流、工具使用與 JSON 模式。

伺服器端快取計費

利用自動提示前綴快取,適用於重複提示、長系統提示、多輪對話與大量 RAG 工作負載。

已公開的模型陣容

從首頁展示的模型中選擇,包括 GLM-5.1、Kimi-K2.6 和 Qwen 3.5 397B-A17B。

依工作負載最佳化

使用針對模型、加速器家族、流量模式與生產限制所設計的效能調校部署。

Wafer 適用情境

  • 快速存取開源模型

    想在不自行架設推論堆疊的情況下呼叫開源模型的團隊,可使用 Serverless API 並避開部署開銷。

  • 生產環境 AI 工作負載

    處理敏感資料或需要高可用性的應用,可使用具隔離端點與 SLA 支援可用性的 Dedicated Inference。

  • OpenAI 相容整合

    聊天機器人、copilot 與代理程式的開發者,可沿用既有的 OpenAI 風格用戶端,只需將 base URL 與 API key 切換到 Wafer。

  • 重複上下文提示

    具有長提示或重複上下文的工作負載,例如多輪支援或 RAG,可受益於重複前綴的自動快取計費。

  • 自訂模型最佳化

    需要針對特定加速器家族或工作負載特性進行效能調校的模型團隊,可使用依這些限制最佳化的專屬部署。

Pros and Cons

Pros

  • 同時提供 serverless 與專屬推論選項。
  • 支援 OpenAI Chat Completions 相容請求,方便直接替換使用。
  • 說明可針對重複提示前綴進行自動快取計費。
  • 在首頁公開基準測試結果與延遲/吞吐量比較。
  • 為 Dedicated Inference 提供每月 99.9% 可用性目標的 SLA。

Cons

  • 定價頁沒有提供價格細節;目前定價網址會回傳 404。
  • 公開首頁只顯示有限的模型清單,明確列出三個 Serverless 模型,其他模型僅被暗示。
  • 提供來源中未記載除了 OpenAI 相容用戶端以外的整合。

FAQ

Wafer 是做什麼的?

Wafer 提供開源模型的 serverless 推論,以及供敏感或生產工作負載使用的專屬端點。

Wafer 可以與 OpenAI 相容的用戶端搭配使用嗎?

是。Wafer 表示其 Serverless 端點遵循 OpenAI Chat Completions 架構,因此現有用戶端只要更改 base URL 與 API key 就能切換使用。

快取如何運作?

Wafer 表示,重複的提示前綴會自動快取,並依各模型卡上顯示的 Cache 費率計費。快取在伺服器端運作,因此不需要透過 header 或旗標啟用。

Wafer 的專屬方案是用來做什麼的?

對於 Dedicated Inference,Wafer 表示可在 24 小時內佈建客製調校的部署,並提供具 SLA 保證的正常運作時間,且可為受合規約束的工作負載提供零資料保留。

Wafer 上有哪些模型可用?

目前首頁列出三個 Serverless 模型:GLM-5.1、Kimi-K2.6 和 Qwen 3.5 397B-A17B。網站也表示還會持續推出更多模型。

Quick Facts

類別
企業級 LLM 推論
產品類型
開源模型託管與服務
部署選項
Serverless 與 Dedicated Inference
API 相容性
Serverless 使用 OpenAI Chat Completions 架構
SLA
Dedicated Inference 每月 99.9% 可用性目標
網站
wafer.ai