开源模型的 Serverless 访问
通过 Serverless 推理访问开源模型,无需管理基础设施或部署开销。
Wafer 是一个面向企业的平台,通过 serverless 和专用推理服务开源大语言模型。其主页将服务定位为面向开源模型的快速 API,而其宣言则将公司使命描述为通过 AI 基础设施优化来最大化每瓦智能。
该平台分为两个主要产品:面向开源模型的 Serverless 访问,无需基础设施或部署开销;以及 Dedicated Inference,面向敏感或关键任务工作负载。网站还表示,专用端点可在 24 小时内完成设置,而 Serverless 端点遵循 OpenAI Chat Completions 规范,以便更容易兼容客户端。
通过 Serverless 推理访问开源模型,无需管理基础设施或部署开销。
为需要定制推理设置和可预测性能的关键任务工作负载使用专用端点。
使用与 OpenAI Chat Completions 兼容的请求规范发送请求,支持 Serverless 模型上的流式输出、工具调用和 JSON 模式。
针对重复提示、长系统提示、多轮对话和重度 RAG 工作负载,依赖自动提示前缀缓存。
从主页展示的模型中进行选择,包括 GLM-5.1、Kimi-K2.6 和 Qwen 3.5 397B-A17B。
使用围绕模型、加速器家族、流量模式和生产约束进行设计的性能调优部署。
希望调用开源模型而不自行搭建推理栈的团队,可以使用 Serverless API 并避免部署开销。
有敏感数据或正常运行时间要求的应用,可以使用具有隔离端点和 SLA 保障可用性的 Dedicated Inference。
聊天机器人、Copilot 和 Agent 的构建者可以保留现有的 OpenAI 风格客户端,只需将基础 URL 和 API key 切换到 Wafer。
具有长提示或重复上下文的工作负载,例如多轮支持或 RAG,可以从重复前缀的自动缓存计费中受益。
需要针对特定加速器家族或工作负载配置进行性能调优的模型团队,可以使用围绕这些约束优化的专用部署。
Wafer 提供面向开源模型的 serverless 推理,以及用于敏感或生产工作负载的专用端点。
是的。Wafer 表示其 Serverless 端点遵循 OpenAI Chat Completions 规范,因此现有客户端只需更改基础 URL 和 API key 即可切换。
Wafer 表示,重复的提示前缀会被自动缓存,并按每个模型卡上显示的 Cache 费率计费。缓存发生在服务端,因此无需通过 header 或标志来启用。
对于 Dedicated Inference,Wafer 表示可以在 24 小时内提供经过定制调优的部署,并提供有 SLA 保障的正常运行时间,且可为受合规约束的工作负载提供零数据保留。
主页目前列出了三个 Serverless 模型:GLM-5.1、Kimi-K2.6 和 Qwen 3.5 397B-A17B。网站还表示会持续推出更多模型。
Pioneer AI 是一款用于微调并持续优化开源语言模型的 agent,帮助团队为分类、抽取等任务构建可直接上线的模型,无需手工搭建训练流水线。
AakarDev AI helps teams manage AI provider access, project-level setups, logs, and analytics from one dashboard. It supports BYOK workflows and lists providers including OpenAI, Google Gemini, Anthropic, Groq, Mistral AI, and Perplexity AI.
Benchspan is an AI agent security platform that discovers agents, blocks prompt injection and data exfiltration in real time, and supports pre-launch red teaming. It is aimed at teams running agents in production and includes Python and TypeScript SDKs.
Edgee is an AI gateway for coding agents and LLM-powered apps. It compresses token traffic, routes requests across models, and provides observability and team controls to help reduce cost and keep sessions running.
Codex Plugins bundle reusable skills, app integrations, and MCP servers into workflows you can install in the Codex app or use from Codex CLI. They help extend Codex with connected-service tasks, reusable instructions, and shared team workflows.
Wallie 是一款开源 AI 直播助手,能观看屏幕、聆听聊天并以可配置人设生成实时解说。支持本地运行、使用自有密钥,适合无真人出镜内容、自动化直播和实时互动。