UStackUStack
Inworld AI icon

Inworld AI

Inworld AI 提供实时文本转语音、语音转文字和实时语音转语音 API,并配套 Router 跨多 LLM 供应商选择与故障切换。

Inworld AI

Inworld AI 是什么?

Inworld AI 是一个用于构建实时语音和对话体验的平台。它提供文本转语音 (TTS)、语音转文字 (STT)、实时语音转语音交互,以及用于路由请求并控制延迟和可靠性的 API 层。

核心目的是帮助开发者创建以语音为先的代理和应用,用户可以在其中实时说话和听取响应,具有上下文感知行为,并支持多 LLM 提供商和转录。

主要特性

  • Inworld TTS 用于实时语音:生成自然发音输出,带有类人表达和小于 200ms 延迟(网站所述),专为对话交互设计。
  • 语音设计和克隆支持:使用克隆或基于文本的语音设计创建语音,实现跨用户会话的一致语音体验。
  • Inworld STT 带实时转录:实时转录口语输入并理解用户上下文,由 profiling 支持。
  • WebSocket 实时流式传输用于直播音频:通过 WebSocket 提供实时双向流式传输用于直播音频,以及同步转录用于完整音频文件。
  • 语音活动检测和上下文 profiling:使用语义和声学 VAD 检测语音开始和停止,并包含语音/用户 profiling 以上下文化响应。
  • Inworld Router 用于模型选择和可靠性:一个 API 可跨 OpenAI、Anthropic、Google 和 200+ 模型路由请求,内置故障切换、A/B 测试、智能模型选择和分析,且不增加延迟(网站所述)。
  • Inworld Realtime API 用于语音转语音交互:端到端可控语音转语音,支持自定义语音和工具调用,适用于交互式代理式对话。

如何使用 Inworld AI

  1. 选择您需要的功能:TTSSTT实时语音转语音Router
  2. 对于基于 API 的工作流,向 Inworld API 进行身份验证,并向 /v1/chat/completions 端点发送聊天请求(网站显示使用 Authorization: Basic $INWORLD_API_KEYcurl 示例)。
  3. 选择合适的模型标识符(例如,路由配置文件如 inworld/user-awareinworld/context-aware,或专注于路由的模型如 inworld/maximize-uptime / inworld/cost-optimizer / inworld/ab-test)。
  4. 使用路由时,包含请求元数据(显示在 extra_body.metadata 下),如语言/国家/计划层级或其他会话上下文。
  5. 对于实时音频,使用实时 API 支持的流式传输模式(WebSocket 双向流式传输用于直播音频,或同步转录用于完整音频文件)。

使用场景

  • 以语音为先的伴侣体验:大规模构建情感吸引力的个性化语音交互,用于关系式伴侣(网站强调“voice-first companions”和持续交互目标)。
  • 实时客户支持或辅导:使用带 profiling 和 VAD 的实时 STT 转录并响应口语用户输入,交互延迟低。
  • 互动媒体和体验:使用具有小于 200ms 延迟特性的 Inworld TTS 启用自然对话式语音输出,实现更流畅的来回交互。
  • 跨提供商的实时代理路由:使用 Inworld Router 在多个 LLM 提供商和模型间选择,应用故障切换并运行 A/B 测试,无需更改代码(描述所述)。
  • 带字幕和搜索的多方转录:应用词级时间戳和说话者分离以标记发言者,支持对话中的字幕时序和搜索。

常见问题

  • Inworld AI 提供什么? 它提供 TTS、STT、实时语音转语音交互组件,以及路由请求跨多个 LLM 提供商和模型的 Router API。

  • Inworld 支持直播音频转录吗? 是的。网站描述通过 WebSocket 的实时双向流式传输用于直播音频,以及同步转录用于完整音频文件。

  • 我可以定制语音或语音输出吗? 网站表示您可以通过克隆或基于文本的语音设计创建语音,并在实时语音转语音 API 中使用自定义语音。

  • Router 如何影响可靠性和测试? 网站表示它包含内置故障切换和 A/B 测试,加上智能模型选择和分析,且不增加延迟(网站所述)。

  • 每个模型提供商都需要单独集成吗? Router 设计为单一集成点,可跨 OpenAI、Anthropic、Google 和 200+ 模型路由。

替代方案

  • 独立 TTS/STT API:仅专注于文本转语音和/或语音转文字的替代提供商。这些可能需要针对转录与语音输出的单独集成。
  • 通用多模态/LLM API 搭配自定义语音工具:使用 LLM 提供商加上您自己的语音管道。这可能会将延迟处理、模型路由和实时流式传输行为的工作转移给您。
  • 语音转语音代理框架:提供语音交互代理编排的平台。与 Inworld 相比,您可能需要评估其开箱即用的实时、流式传输和路由处理程度。
  • 模型路由/代理服务:位于您的应用与多个 LLM 提供商之间的工具,提供故障切换和模型选择。这些专注于路由,而非语音组件(TTS/STT/实时语音转语音)。
Inworld AI | UStack