UStackUStack
Grok Speech to Text and Text to Speech APIs icon

Grok Speech to Text and Text to Speech APIs

xAI 提供 Grok Speech to Text 与 Text to Speech APIs:低延迟 REST/WebSocket 转写与合成,多语言支持,含说话人分离与 TTS 语音标签。

Grok Speech to Text and Text to Speech APIs

什么是 Grok Speech to Text (STT) 和 Text to Speech (TTS)?

Grok Speech to Text (STT) 和 Grok Text to Speech (TTS) 是 xAI 提供的独立音频 API,用于将语音转换为文本和文本转换为语音。它们专为开发者设计,可通过 REST 和 WebSocket 端点为其应用添加语音功能。

Grok STT 的目标是生成准确的转录文本,并提供结构化输出选项。Grok TTS 专注于将文本转换为自然、富有表现力的语音,并通过语音标签实现对韵律的精细控制。

主要特性

  • 高准确度、低延迟转写:使用 REST API 从大型音频文件生成转录文本,使用 WebSocket API 进行实时语音转写。
  • 词级时间戳和说话人分离:通过分离技术为词级提供说话人 ID,用于分离和识别预录制和流式音频中的说话人。
  • 多通道支持:通过同一 API 转写多通道音频文件,并处理说话人分离。
  • 逆文本规范化(启用格式化时):将口语转换为结构化、正确格式的输出,例如数字、日期和货币(例如,将“我的电话号码是……”转换为预期格式)。
  • 多语言语音识别:支持 25+ 种语言,并允许无缝切换语言。
  • 用于富有表现力的 TTS 的语音标签:使用内联和包裹式语音标签,如 [laugh]、[sigh]、[whisper]、,控制表达方式。
  • TTS 的 REST 和 WebSocket 生成:使用 REST 进行批量式生成,或使用 WebSocket 进行实时语音输出。

如何使用 Grok Speech to Text (STT) 和 Text to Speech (TTS)

  1. 从 xAI API 控制台开始,使用提供的 STT 或 TTS 端点。
  2. 对于转写,选择 REST 处理大型音频文件,或选择 WebSocket 实现低延迟实时转写。
  3. 对于 TTS,通过 REST 提交文本生成语音,或使用 WebSocket 实现实时语音输出。
  4. 如需结构化转录文本,启用格式化以使用逆文本规范化。对于 TTS 表现力,添加语音标签控制韵律。

使用场景

  • 语音代理和交互式助手:实时转写用户语音,并将结果文本输入到对话或工作流逻辑中。
  • 会议或支持通话的实时转写:使用说话人分离和词级说话人 ID 将对话部分归属正确说话人。
  • 无障碍工具:将口语转换为正确结构化的文本(包括数字、日期和货币),并可选支持多种语言。
  • 播客和音频制作工作流:从较长录音生成转录文本(批量转写),并使用 TTS 将脚本或结构化文本转换回音频。
  • 交互式音频体验:结合受控 TTS(语音标签用于强调、停顿和表现力提示)与转写,支持双向语音交互。

常见问题

转写和语音生成的可用端点有哪些?
Grok STT 和 Grok TTS 均提供 REST 端点用于批量请求,以及 WebSocket 端点用于低延迟或实时使用。

Grok STT 支持说话人识别吗?
是的。API 包含说话人分离和词级说话人 ID,支持预录制和实时流式音频。

转录文本支持格式化或结构化输出吗?
是的。启用格式化后,Grok STT 会应用逆文本规范化,将口语转换为结构化输出,例如数字、日期和货币。

Grok STT 支持多少种语言?
页面说明支持 25+ 种语言,并指出可无缝切换语言。

如何控制 TTS 表达风格?
Grok TTS 提供语音标签(例如 [laugh]、[sigh]、[whisper]、),可包含在文本中控制韵律和情感。

替代方案

  • 语音转文本 API(通用类别):其他 STT 提供商提供 REST/WebSocket 转写,支持分离和标点/格式化等选项。根据延迟、分离质量以及逆文本标准化处理方式进行比较。
  • 带标记/标签的文本转语音 API(通用类别):许多 TTS API 支持 SSML 风格或自定义标签来影响韵律。比较标签表达力、支持的控制选项,以及 REST 与实时 WebSocket 生成的需求。
  • 构建自定义音频管道(通用类别):一些团队可能自行组装 ASR 和格式化组件(独立的转写 + 标准化)。这会增加集成复杂性,但可对每个步骤提供更多控制。
  • 使用对话式语音平台 vs 独立 API:除了独立 STT/TTS 端点,您可以采用端到端语音代理平台。这通常以牺牲独立 API 的灵活性,换取更集成的流程。
Grok Speech to Text and Text to Speech APIs | UStack