UStackUStack
Wafer icon

Wafer

Waferは自律エージェントでGPU推論をプロファイル・診断・最適化。Wafer Passで高速なオープンLLMもサブスク提供。

Wafer

Waferとは?

Waferは、「自律エージェント」を用いてエンドツーエンドのスタック(カーネルからモデル、生産パイプラインまで)全体でGPU推論をプロファイル・診断・最適化するAI推論最適化プラットフォームです。ユーザーが異なるハードウェア構成で高速なAI推論を実行できるようにすることを目的としています。

サイトでは、Waferをサブスクリプション(Wafer Pass)経由で高速オープンソースモデルにアクセス・実行する方法としても紹介しており、モデル中心およびエージェントワークフローをサポートし、スループットとコスト効率の向上を目指します。

主な機能

  • スタック全体でパフォーマンスをプロファイル・診断する自律推論最適化エージェント。カーネル、モデル動作、パイプラインの複数レイヤーでボトルネックを特定。
  • 「任意のAIモデル、任意のAIハードウェア」に焦点を当てたモデル・ハードウェア指向の最適化ワークフロー。指定セットアップでの推論速度最大化を目標。
  • カーネル中心の最適化機能。「カーネルを最適化するカスタムエージェント」を含み、それらのカーネル改善を基盤とした開発者エコシステムのスケーリングを可能に。
  • スループット指向のモデル最適化例。Qwen3.5-397Bで「ベースSGLang比2.8倍高速」の比較主張。出力スループットとパフォーマンス指向のチューニングとして位置づけ。
  • Wafer Passサブスクリプション。個人・コーディングエージェント向けに1つのサブスクで「最速オープンソースLLM」への限定アクセス。Qwen3.5-Turbo-397BやGLM 5.1-Turboなどのモデルリスト。
  • サイトに記載の複数クライアント/ワークフローツールとの互換性(例: Claude Code, OpenClaw, Cline, Roo Code, Kilo Code, OpenHands)。

Waferの使い方

  1. Wafer Pass(高速オープンソースLLMへのサブスクアクセス、個人/コーディングエージェント向け)か、自社推論スタック向けの広範な最適化ワークフローのどちらかを選択。
  2. Wafer Passの場合、リストされたオプションから利用可能なモデル(例: Qwen3.5-Turbo-397B, GLM 5.1-Turbo)を選択し、サイト記載のエージェント/コーディングワークフローで使用。
  3. スタック最適化の場合、Waferエージェントを実行して現在の推論セットアップをプロファイル・診断し、カーネル/モデル/パイプラインの最適化アプローチを適用してスループットを向上。
  4. チームが異なる環境にデプロイする場合、デプロイメントターゲットごとに最適化を繰り返し、システムが推論パフォーマンスをより一貫してチューニング。

ユースケース

  • 既存GPUスタックでスループットを最適化するAIチーム: Waferエージェントでカーネル、モデル、パイプライン全体の推論ボトルネックをプロファイル・診断し、出力スループットを向上。
  • 特定オープンソースモデルのパフォーマンス検証を行う開発者: Wafer Passでリストされたオープンソースモデルをエージェントワークフローで試用し、推論挙動を比較(サイトではパフォーマンスを主要成果として明示)。
  • ハードウェア指向チーム(ASICおよびGPUプラットフォーム): Waferのカスタムカーネル最適化エージェントで、ハードウェアのパフォーマンスをソフトウェアレイヤー改善により引き出す。
  • 新モデルリリースを追うクラウドプロバイダ: Waferのモデル最適化アプローチを実行し、新モデル公開時に迅速対応し、高速・コスト敏感な推論をターゲット。
  • 複数環境にモデルをデプロイするAIラボ: エンドツーエンド推論最適化を「どこでも」適用し、異なるデプロイメントターゲットでモデルを最大限高速・低コストで実行。

FAQ

  • Waferは何を最適化する? GPU推論をスタック全体(カーネル、モデル、生産パイプライン)で最適化。
  • Waferは特定モデルやハードウェア専用? サイトでは「任意のAIモデル」を「任意のAIハードウェア」向けに最適化するエージェントとしており、ワークフローを広範適用可能と位置づけ。
  • Wafer Passとは? 個人・コーディングエージェント向けに「1つのサブスクで最速オープンソースLLM」への限定アクセス。
  • Wafer Passに含まれるモデル(サイト記載)は? Qwen3.5-Turbo-397B(スループット比較主張付き)とGLM 5.1-Turbo。「近日更多モデル追加」。
  • 特定ツールとの統合が必要? 対応ツール(Claude Code, OpenClaw, Cline, Roo Code, Kilo Code, OpenHands)をリストアップするが、詳細統合手順は記載なし。

代替案

  • 汎用モデルサービングおよび推論フレームワーク: 展開とスケーリングに焦点を当てた推論サービングスタックが代替案ですが、カーネル、モデル、パイプライン全体にわたるエージェント化されたプロファイリング/最適化ワークフローをWaferが記述するような形で提供しない場合があります。
  • カーネルレベルの最適化ツール: 一部のソリューションはGPUカーネル(例:カスタムカーネル、カーネルスケジューリング、低レベルパフォーマンスチューニング)に特化。これらはモデルおよびパイプライヤー全体でより多くの手作業を要する可能性があります。
  • 社内パフォーマンスベンチマーク+チューニング: チームは独自のベンチマークループを構築し、推論設定(バッチング、精度、ランタイムパラメータ)をチューニング可能。柔軟ですが、通常自動化されたエンドツーエンドの最適化エージェントアプローチを欠きます。
  • 特化推論最適化サービス: エージェント駆動のプロファイリングの代わりに、一部のプロバイダーが推論エンドポイント向けのマネージドパフォーマンスチューニングを提供。展開レベル最適化に焦点を当て、カーネル/モデル/パイプライン全体の診断ではなく。
Wafer | UStack