什么是 Grok Speech to Text (STT) 和 Text to Speech (TTS)?
Grok Speech to Text (STT) 和 Grok Text to Speech (TTS) 是 xAI 提供的独立音频 API,用于将语音转换为文本和文本转换为语音。它们专为开发者设计,可通过 REST 和 WebSocket 端点为其应用添加语音功能。
Grok STT 的目标是生成准确的转录文本,并提供结构化输出选项。Grok TTS 专注于将文本转换为自然、富有表现力的语音,并通过语音标签实现对韵律的精细控制。
主要特性
- 高准确度、低延迟转写:使用 REST API 从大型音频文件生成转录文本,使用 WebSocket API 进行实时语音转写。
- 词级时间戳和说话人分离:通过分离技术为词级提供说话人 ID,用于分离和识别预录制和流式音频中的说话人。
- 多通道支持:通过同一 API 转写多通道音频文件,并处理说话人分离。
- 逆文本规范化(启用格式化时):将口语转换为结构化、正确格式的输出,例如数字、日期和货币(例如,将“我的电话号码是……”转换为预期格式)。
- 多语言语音识别:支持 25+ 种语言,并允许无缝切换语言。
- 用于富有表现力的 TTS 的语音标签:使用内联和包裹式语音标签,如 [laugh]、[sigh]、[whisper]、
、 和 ,控制表达方式。 - TTS 的 REST 和 WebSocket 生成:使用 REST 进行批量式生成,或使用 WebSocket 进行实时语音输出。
如何使用 Grok Speech to Text (STT) 和 Text to Speech (TTS)
- 从 xAI API 控制台开始,使用提供的 STT 或 TTS 端点。
- 对于转写,选择 REST 处理大型音频文件,或选择 WebSocket 实现低延迟实时转写。
- 对于 TTS,通过 REST 提交文本生成语音,或使用 WebSocket 实现实时语音输出。
- 如需结构化转录文本,启用格式化以使用逆文本规范化。对于 TTS 表现力,添加语音标签控制韵律。
使用场景
- 语音代理和交互式助手:实时转写用户语音,并将结果文本输入到对话或工作流逻辑中。
- 会议或支持通话的实时转写:使用说话人分离和词级说话人 ID 将对话部分归属正确说话人。
- 无障碍工具:将口语转换为正确结构化的文本(包括数字、日期和货币),并可选支持多种语言。
- 播客和音频制作工作流:从较长录音生成转录文本(批量转写),并使用 TTS 将脚本或结构化文本转换回音频。
- 交互式音频体验:结合受控 TTS(语音标签用于强调、停顿和表现力提示)与转写,支持双向语音交互。
常见问题
转写和语音生成的可用端点有哪些?
Grok STT 和 Grok TTS 均提供 REST 端点用于批量请求,以及 WebSocket 端点用于低延迟或实时使用。
Grok STT 支持说话人识别吗?
是的。API 包含说话人分离和词级说话人 ID,支持预录制和实时流式音频。
转录文本支持格式化或结构化输出吗?
是的。启用格式化后,Grok STT 会应用逆文本规范化,将口语转换为结构化输出,例如数字、日期和货币。
Grok STT 支持多少种语言?
页面说明支持 25+ 种语言,并指出可无缝切换语言。
如何控制 TTS 表达风格?
Grok TTS 提供语音标签(例如 [laugh]、[sigh]、[whisper]、
替代方案
- 语音转文本 API(通用类别):其他 STT 提供商提供 REST/WebSocket 转写,支持分离和标点/格式化等选项。根据延迟、分离质量以及逆文本标准化处理方式进行比较。
- 带标记/标签的文本转语音 API(通用类别):许多 TTS API 支持 SSML 风格或自定义标签来影响韵律。比较标签表达力、支持的控制选项,以及 REST 与实时 WebSocket 生成的需求。
- 构建自定义音频管道(通用类别):一些团队可能自行组装 ASR 和格式化组件(独立的转写 + 标准化)。这会增加集成复杂性,但可对每个步骤提供更多控制。
- 使用对话式语音平台 vs 独立 API:除了独立 STT/TTS 端点,您可以采用端到端语音代理平台。这通常以牺牲独立 API 的灵活性,换取更集成的流程。
替代品
Sanota
Sanota 把你的声音转成清晰优美的文字,轻松记录回忆与灵感,把想法整理成可阅读内容,支持免费开始。
Speech to Text Converter Online
一个免费的在线工具,可将音频和视频文件转换为45种以上语言的准确文本记录。它支持多种文件格式,无需下载或注册。
MiniCPM-o 4.5
MiniCPM-o 4.5 是一款功能强大的多模态人工智能模型,专为视觉、语音和全双工直播流设计,提供先进的视觉理解、语音合成和实时交互能力,采用紧凑的9B参数架构。
Dictato
Dictato 是 macOS 离线语音转文字应用:支持 Whisper、Parakeet 与 Apple 引擎,不走云端并无超时,将文字插入任意输入框。
CAMB.AI
把单一直播转成多语言广播:实时AI音频配音,多语言输出到 YouTube、Twitch、X 等目的地。
Tavus
Tavus 构建可在实时面对面互动中看、听并响应的 AI 系统,并通过 API 支持视频代理、数字孪生与 AI 伴侣部署。