Inworld AI

Inworld AI 是什么？

Inworld AI 是一个用于构建实时语音和对话体验的平台。它提供文本转语音 (TTS)、语音转文字 (STT)、实时语音转语音交互，以及用于路由请求并控制延迟和可靠性的 API 层。

核心目的是帮助开发者创建以语音为先的代理和应用，用户可以在其中实时说话和听取响应，具有上下文感知行为，并支持多 LLM 提供商和转录。

Inworld TTS 用于实时语音：生成自然发音输出，带有类人表达和小于 200ms 延迟（网站所述），专为对话交互设计。
语音设计和克隆支持：使用克隆或基于文本的语音设计创建语音，实现跨用户会话的一致语音体验。
Inworld STT 带实时转录：实时转录口语输入并理解用户上下文，由 profiling 支持。
WebSocket 实时流式传输用于直播音频：通过 WebSocket 提供实时双向流式传输用于直播音频，以及同步转录用于完整音频文件。
语音活动检测和上下文 profiling：使用语义和声学 VAD 检测语音开始和停止，并包含语音/用户 profiling 以上下文化响应。
Inworld Router 用于模型选择和可靠性：一个 API 可跨 OpenAI、Anthropic、Google 和 200+ 模型路由请求，内置故障切换、A/B 测试、智能模型选择和分析，且不增加延迟（网站所述）。
Inworld Realtime API 用于语音转语音交互：端到端可控语音转语音，支持自定义语音和工具调用，适用于交互式代理式对话。

选择您需要的功能：TTS、STT、实时语音转语音 或 Router。
对于基于 API 的工作流，向 Inworld API 进行身份验证，并向 /v1/chat/completions 端点发送聊天请求（网站显示使用 Authorization: Basic $INWORLD_API_KEY 的 curl 示例）。
选择合适的模型标识符（例如，路由配置文件如 inworld/user-aware 或 inworld/context-aware，或专注于路由的模型如 inworld/maximize-uptime / inworld/cost-optimizer / inworld/ab-test）。
使用路由时，包含请求元数据（显示在 extra_body.metadata 下），如语言/国家/计划层级或其他会话上下文。
对于实时音频，使用实时 API 支持的流式传输模式（WebSocket 双向流式传输用于直播音频，或同步转录用于完整音频文件）。

以语音为先的伴侣体验：大规模构建情感吸引力的个性化语音交互，用于关系式伴侣（网站强调“voice-first companions”和持续交互目标）。
实时客户支持或辅导：使用带 profiling 和 VAD 的实时 STT 转录并响应口语用户输入，交互延迟低。
互动媒体和体验：使用具有小于 200ms 延迟特性的 Inworld TTS 启用自然对话式语音输出，实现更流畅的来回交互。
跨提供商的实时代理路由：使用 Inworld Router 在多个 LLM 提供商和模型间选择，应用故障切换并运行 A/B 测试，无需更改代码（描述所述）。
带字幕和搜索的多方转录：应用词级时间戳和说话者分离以标记发言者，支持对话中的字幕时序和搜索。

独立 TTS/STT API：仅专注于文本转语音和/或语音转文字的替代提供商。这些可能需要针对转录与语音输出的单独集成。
通用多模态/LLM API 搭配自定义语音工具：使用 LLM 提供商加上您自己的语音管道。这可能会将延迟处理、模型路由和实时流式传输行为的工作转移给您。
语音转语音代理框架：提供语音交互代理编排的平台。与 Inworld 相比，您可能需要评估其开箱即用的实时、流式传输和路由处理程度。
模型路由/代理服务：位于您的应用与多个 LLM 提供商之间的工具，提供故障切换和模型选择。这些专注于路由，而非语音组件（TTS/STT/实时语音转语音）。