Wafer icon

Wafer

Waferは、オープンソースモデルをserverless APIと専用エンドポイントで提供するエンタープライズ向けLLM推論プラットフォーム。高速なモデルアクセス、OpenAI互換ワークフロー、チューニング済みの本番運用に対応します。

Wafer

エンタープライズ向けLLM推論プラットフォーム

Waferは、サーバーレス推論と専用推論の両方でオープンソースの大規模言語モデルを提供する、エンタープライズ向けプラットフォームです。ホームページではオープンモデル向けの高速APIを軸にサービスを訴求しており、マニフェストではAIインフラの最適化を通じてワットあたりの知能を最大化することを企業ミッションとして掲げています。

このプラットフォームは主に2つの提供形態に分かれています。インフラやデプロイのオーバーヘッドなしでオープンモデルにアクセスできるServerlessと、機密性の高いワークロードやミッションクリティカルなワークロード向けのDedicated Inferenceです。サイトでは、専用エンドポイントは24時間以内にセットアップでき、ServerlessエンドポイントはOpenAI Chat Completionsのスキーマに従うため、クライアント互換性を確保しやすいと案内されています。

主な機能

オープンモデルへのサーバーレスアクセス

インフラやデプロイの手間を管理せずに、Serverless推論でオープンモデルへアクセスできます。

専用推論エンドポイント

調整済みの推論設定と予測可能な性能が必要な、ミッションクリティカルなワークロード向けに専用エンドポイントを利用できます。

OpenAI互換APIワークフロー

ストリーミング、ツール利用、ServerlessモデルでのJSONモードを含む、OpenAI Chat Completions互換のスキーマでリクエストを送信できます。

サーバー側キャッシュ課金

繰り返しのプロンプト、長いシステムプロンプト、マルチターン会話、RAG中心のワークロードに対して、自動的なプロンプト接頭辞キャッシュを活用できます。

公開モデルラインアップ

ホームページに掲載されているGLM-5.1、Kimi-K2.6、Qwen 3.5 397B-A17Bなどのモデルから選べます。

ワークロード特化の最適化

モデル、アクセラレータファミリー、トラフィックパターン、本番環境の制約に合わせて設計された、性能最適化済みデプロイを利用できます。

Waferが適している場面

  • オープンモデルへの高速アクセス

    自前の推論スタックを構築せずにオープンモデルを呼び出したいチームは、Serverless APIを使うことでデプロイのオーバーヘッドを避けられます。

  • 本番向けAIワークロード

    機密データや可用性要件のあるアプリケーションは、分離されたエンドポイントとSLA保証付きの可用性を備えたDedicated Inferenceを利用できます。

  • OpenAI互換の統合

    チャットボット、コパイロット、エージェントの開発者は、既存のOpenAI形式のクライアントをそのまま使い、ベースURLとAPIキーをWaferに切り替えられます。

  • 繰り返しコンテキストのプロンプト

    マルチターンサポートやRAGのような、長いプロンプトや繰り返しのコンテキストを扱うワークロードは、繰り返し接頭辞に対する自動キャッシュ課金の恩恵を受けられます。

  • カスタムモデル最適化

    特定のアクセラレータファミリーやワークロード特性に対してチューニングされた性能が必要なモデルチームは、その制約に合わせて最適化された専用デプロイを利用できます。

Pros and Cons

Pros

  • Serverlessと専用推論の両方を提供しています。
  • OpenAI Chat Completions互換のリクエストをサポートしており、導入しやすいです。
  • 繰り返しのプロンプト接頭辞に対する自動キャッシュ課金を説明しています。
  • ホームページでベンチマーク結果とレイテンシー/スループット比較を公開しています。
  • Dedicated Inferenceでは、月間稼働率99.9%目標のSLAを提供しています。

Cons

  • 料金の詳細は料金ページで確認できず、料金ページのURLは現在404を返します。
  • 公開ホームページに表示されるモデル一覧は限定的で、Serverlessモデルとして明示されているのは3つだけで、他は示唆されるにとどまります。
  • OpenAI互換クライアント以外の統合については、提供された情報では文書化されていません。

FAQ

Waferは何をするサービスですか?

Waferは、オープンソースモデル向けのサーバーレス推論と、機密性の高いワークロードや本番環境向けの専用エンドポイントを提供します。

WaferはOpenAI互換クライアントで使えますか?

はい。Waferは、ServerlessエンドポイントがOpenAI Chat Completionsのスキーマに従っていると案内しており、既存のクライアントはベースURLとAPIキーを変更するだけで切り替えられます。

キャッシュはどのように機能しますか?

Waferによると、繰り返されるプロンプトの接頭辞は自動的にキャッシュされ、各モデルカードに表示されるCacheレートで課金されます。キャッシュはサーバー側で動作するため、有効化のためのヘッダーやフラグは不要です。

Waferの専用プランは何のためのものですか?

Dedicated Inference向けには、Waferは24時間以内にカスタムチューニング済みのデプロイを用意でき、コンプライアンス要件のあるワークロード向けにデータ保持なしのSLA保証付き稼働を提供すると案内しています。

Waferではどのモデルが利用できますか?

ホームページには現在、ServerlessモデルとしてGLM-5.1、Kimi-K2.6、Qwen 3.5 397B-A17Bの3つが掲載されています。サイトでは、さらに多くのモデルが順次公開されるとも案内しています。

Quick Facts

カテゴリ
エンタープライズLLM推論
製品タイプ
オープンソースモデルのホスティングと提供
デプロイオプション
ServerlessとDedicated Inference
API互換性
Serverless向けOpenAI Chat Completionsスキーマ
SLA
Dedicated Inference向け月間稼働率99.9%目標
Webサイト
wafer.ai

Waferの代替品

Pioneer AI icon

Pioneer AI

Pioneer AIは、オープンソース言語モデルのファインチューニングと継続的改善を行うエージェントです。手作業の学習パイプラインなしで、分類や抽出の本番向けモデル構築を支援します。

AakarDev AI icon

AakarDev AI

AakarDev AI helps teams manage AI provider access, project-level setups, logs, and analytics from one dashboard. It supports BYOK workflows and lists providers including OpenAI, Google Gemini, Anthropic, Groq, Mistral AI, and Perplexity AI.

Benchspan icon

Benchspan

Benchspan is an AI agent security platform that discovers agents, blocks prompt injection and data exfiltration in real time, and supports pre-launch red teaming. It is aimed at teams running agents in production and includes Python and TypeScript SDKs.

Edgee icon

Edgee

Edgee is an AI gateway for coding agents and LLM-powered apps. It compresses token traffic, routes requests across models, and provides observability and team controls to help reduce cost and keep sessions running.

Codex Plugins icon

Codex Plugins

Codex Plugins bundle reusable skills, app integrations, and MCP servers into workflows you can install in the Codex app or use from Codex CLI. They help extend Codex with connected-service tasks, reusable instructions, and shared team workflows.

Wallie icon

Wallie

Wallieは、画面を見てチャットを聞き、設定したペルソナでライブ解説を生成するオープンソースAI streamer。自分のキーでローカル実行でき、顔出しなし配信や自律配信、リアルタイム反応に最適です。