Inworld AI

Inworld AIは、リアルタイムのテキスト読み上げ、音声認識、LLMルーティングに対応した開発者向け音声AIプラットフォーム。ストリーミング生成、ボイスクローン、ボイスデザイン、オンデマンドから企業向けまでの料金プランを提供します。

AI音声認識

AI音声クローニング

AI音声合成

文字起こし

音声合成

ウェブサイトを訪問

開発者向けのリアルタイム音声AIプラットフォーム

Inworld AIは、開発者がリアルタイム音声体験を構築するための音声AIプラットフォームです。サイトはテキスト読み上げを中心に据え、音声認識とLLMルーティング向けの追加製品も提供しており、エージェント、アプリ、その他のストリーミング音声ワークフロー向けのプラットフォームとして位置付けています。

音声製品は、低遅延のストリーミング生成、カスタムボイス作成、多言語配信を重視しています。ソースページでは、短い音声サンプルからの即時ボイスクローン、テキストベースのボイスデザイン、生成された音声チャンクをそのままストリーミングできる単一APIのオプションが示されています。

料金体系は使用量とプラン階層で整理されており、On-Demandオプションから始まり、月間クレジット、より低い単価、より高い同時実行数、ワークスペース機能、エンタープライズ条件を追加する有料プランへと移行します。企業向けには、料金ページに表示されているデプロイメントやデータレジデンシーのオプションを含む、個別の価格設定と条件を依頼できます。

主な機能

リアルタイム・ストリーミングTTS

ストリーミング出力でリアルタイムに音声を生成し、応答全体が完了する前に発話を開始できます。サイトでは、ボイス製品で最初のチャンクの遅延が200ms未満であると説明しています。

即時ボイスクローン

5〜15秒の音声からボイスを作成し、PlaygroundとAPIの両方で再利用できます。製品ページには、別のボイスクローン用エンドポイントも表示されています。

テキストベースのボイスデザイン

アクセント、トーン、年齢、エネルギーを自然言語で指定して、音声サンプルなしでボイスを作成できます。サイトでは、これを本番対応のボイスデザインワークフローとして紹介しています。

多言語の音声配信

TTS-2製品では100以上の言語で音声を提供し、クローンしたボイスをネイティブ話者のように話すようローカライズできます。ソースでは、多言語対応とアクセントの引き継ぎがないことが強調されています。

音声制御とモデルオプション

発話速度、temperature、発音、非言語表現などの調整コントロールを利用できます。料金の詳細には、TTS-2とTTS 1.5のように、言語対応範囲が異なるモデルの違いも示されています。

APIとワークスペースのワークフロー

STTとLLMルーティングも含む単一のプラットフォーム上で構築できます。料金ページには、APIアクセス、ワークスペース共有、プランベースの同時実行数と利用制限が記載されています。

主なユースケース

リアルタイム音声エージェント
応答時間が体験の印象に影響するアシスタント、キャラクター、会話型アプリに、ストリーミング音声を追加します。
カスタムボイス生成
短いサンプルからブランド向け、またはキャラクター固有のボイスを作成し、APIまたはPlaygroundを通じて本番環境で再利用します。
多言語コンテンツとローカライゼーション
一貫した声のアイデンティティを保ちながら複数言語で音声を生成し、グローバル向けにローカライズされた配信も行います。
製品開発とスケーリング
利用量の増加に応じて、プランベースのクレジット、ワークスペース共有、より高い同時実行数の上限を使いながら、音声機能を試作、検証、拡張します。
統合された音声ワークフロー
エンドツーエンドの音声体験を構築する際に、音声入力、音声出力、LLMルーティングを1つのスタックで組み合わせます。

Pros and Cons

Pros

サブ200msの最初のチャンク遅延が示されたリアルタイム・ストリーミングTTSに対応しています。
音声ベースのクローンとテキストベースのボイスデザインを含む、複数のボイス作成方法を提供しています。
TTS、STT、LLMルーティングで音声スタックの複数領域をカバーしています。
使用量ベースの初期料金と、利用量の増加に応じてクレジット、上限、割引が追加されるプラン階層があります。
料金ページで、個別見積もりや営業問い合わせ対応を含む、エンタープライズ向けのオプションを提供しています。

Cons

公開ページは音声とルーティングの説明が中心で、提供されたソース内では特定のSDK、プラットフォーム、チームワークフローに関する統合の詳細は限られています。
高度な料金やコンプライアンス項目の一部はティア限定、または追加オプションとして表示されているため、導入計画の前に正確な利用可否を確認する必要があります。

FAQ

Inworld AIは何を提供していますか？

Inworldは、1つのプラットフォームからテキスト読み上げ、音声認識、リアルタイム音声エージェント、LLMルーティングを提供します。料金ページでは、無料で始められるオプションと、クレジットの追加、高い上限、ボリューム割引が付く有料プランも示されています。

カスタムボイスの作成やクローンはできますか？

ソースでは、InworldがストリーミングTTS、5〜15秒の音声からの即時ボイスクローン、音声サンプルなしのテキストベースのボイスデザインをサポートしていることが示されています。

InworldはAPIやチーム向けのワークフローに対応していますか？

はい。料金ページには、公開API、有料プランでのワークスペース作成と共有、プラン拡大に応じたより高い同時実行数の上限が記載されています。

Inworldの料金体系はどのようになっていますか？

料金ページでは、On-Demandの開始プランに加えて、Creator、Builder、Developer、Growth、Enterpriseの有料ティアが示されています。Enterpriseには個別見積もりと営業問い合わせのフローが含まれます。

レイテンシについて知っておくべきことは何ですか？

ソースでは、サブ200msの最初のチャンク遅延を備えたリアルタイムTTSが強調されていますが、実際の適合性は特定のモデルとユースケースによって異なります。

Quick Facts

カテゴリー: 音声AIプラットフォーム
主な用途: リアルタイムのテキスト読み上げ
関連製品: 音声認識とLLMルーティング
ボイス作成: 即時クローンとテキストベースのボイスデザイン
料金モデル: On-Demandと有料ティア、企業向け個別料金
ソースドメイン: inworld.ai

Inworld AIの代替品

Talkpal

Talkpalは、130以上の言語でスピーキング、リスニング、ライティング、発音を練習できるAI搭載の語学学習Web・モバイルアプリ。ガイド付きコースやロールプレイ、通話形式の会話練習に対応。

QuickQuill

QuickQuillは、macOSで使えるローカル動作の音声入力・文字起こしアプリです。会議の録音、書き起こし、要約、ノート書き出しをクラウドなしで行えます。

Speech to Text Converter

Speech to Text Converter は、ブラウザで使える文字起こしツールです。ライブ音声入力や音声・動画ファイルのアップロードに対応し、短い作業向けの無料プランと、無制限の文字起こし、AI要約、翻訳、話者識別、詳細な書き出し機能を備えたProプランがあります。

Realtime and audio

Realtime and audio は、ライブ音声の翻訳、文字起こし、音声生成、音声対応チャットに最適な speech architecture を選ぶための OpenAI API ガイドです。各用途に合う session type、endpoint、接続方法を案内します。

Gemini 3.1 Flash TTS

Gemini 3.1 Flash TTSは、表現力の高いAI音声を生成し、スタイルや話し方を細かく制御できるGoogleのプレビュー音声合成モデルです。Gemini API、Google AI Studio、Vertex AI、Google Vidsで利用できます。

Tactiq

Tactiqは、Google Meet、Zoom、Microsoft Teams向けのAIメモ作成ツールです。会議をライブ文字起こしし、要約、アクション項目、フォローアップを生成。Chrome拡張機能と共有・連携に対応。