UStackUStack
FlowSpeech icon

FlowSpeech

FlowSpeech 是 AI 文本转语音工具,可将脚本生成拟人音频,支持情感与精确停顿控制,提供 30+ 声音、70+ 语言。

FlowSpeech

什么是 FlowSpeech?

FlowSpeech 是一款 AI 驱动的文本转语音 (TTS) 工作室,可将书面文本转换为拟人音频。它注重上下文感知表达,让您控制情感和时机,使输出更具表现力并更好地匹配脚本。

该工具支持多种生成模式,包括独白、多说话者对话和快速“即时”结果。它还接受常见文档和图像输入,提取文本,并从中生成 TTS 音频。

主要功能

  • 上下文感知 TTS 生成:分析情感、时机和脚本细微差别,指导更合适的表达。
  • 情感和口音控制:使用括号指令(例如 [whisper][shout][strong British accent]),让您引导台词表演方式。
  • 精确停顿控制:在文本中插入停顿标签,如 [⌛1.0s],直接控制节奏和节拍。
  • 单说话者、多说话者和即时模式:选择 Single Speaker 用于独白,Multi Speaker 用于对话,或 Instant Speech 用于更快生成。
  • 自动标记和声音匹配
    • Single Speaker 模式下,FlowSpeech 阅读上传文件,分析语气,并自动插入情感标签。
    • Multi Speaker 模式下,它检测文本中的不同说话者,拆分脚本,并将片段与合适的 AI 声音配对。
  • 丰富的语音和语言覆盖:提供 30+ TTS 声音,涵盖多种风格和 70+ 语言
  • 长文本连续渲染限制:每次渲染处理最多 200k 字符
  • 文档和图像摄入:支持 PDF、DOC、DOCX、PPT、PPTX、TXT、RTF、EPUB图像文件 用于文本提取和转换。

如何使用 FlowSpeech

  1. 选择生成模式:使用 Single Speaker 进行单叙述者,Multi Speaker 用于对话,或 Instant Speech 用于快速输出。
  2. 提供文本:粘贴脚本,或 上传 支持的文件类型(PDF、DOC/DOCX、PPT/PPTX、TXT、RTF、EPUB 或图像)。
  3. 添加表演提示:使用括号标签插入情感/口音命令,如 [ ],并添加停顿标签如 [⌛1.0s] 来控制时机。
  4. 选择声音:从可用 TTS 声音中挑选,然后生成音频。

使用场景

  • 有声书叙述:将小说、教科书或文章转换为长篇音频,支持节奏和情感感知表达,适合逐章收听。
  • 视频配音:为解说视频、脚本或分段录音生成口语叙述,控制停顿和语气至关重要。
  • 播客式多说话者对话:让 FlowSpeech 拆分对话脚本并匹配合适声音,转换为多声音录音。
  • 教育叙述:从课程材料提取文本,添加必要时机提示,生成易读、富有表现力的音频。
  • 角色声音和脚本表演:使用括号指令切换表达风格(例如 whisper/shout)和口音,同时保持对话自然。

常见问题

  • 如何在 FlowSpeech 中添加停顿?

    在文本中使用停顿标签,例如 [⌛1.0s],来控制时机和节奏。

  • 如何添加情感或口音?

    使用括号命令,如 [whisper][shout][strong British accent],指示声音表演方式。

  • Single Speaker 和 Multi Speaker 模式有何区别?

    Single Speaker 用于独白,分析语气后自动插入情感标签。Multi Speaker 适用于对话,自动拆分说话者和配对合适 AI 声音。

  • FlowSpeech 支持哪些输入格式?

    可从 PDF、DOC、DOCX、PPT、PPTX、TXT、RTF、EPUB图像文件 提取文本,或直接粘贴文本。

  • 单次渲染脚本最长可达多少?

    FlowSpeech 每次渲染处理最多 200k 字符

替代方案

  • 通用文本转语音工具,支持手动 SSML 控制:这些工具提供标准声音合成功能,但通常需通过更技术化的标记流程手动处理情感/停顿时机,而非上下文感知情感标签。
  • 专注于配音创建的视频叙述工具:许多支持导入脚本并生成叙述,但内置表演控制(情感/口音和精确停顿标签)可能较少,视平台而定。
  • AI 有声书或电子学习声音平台:这些针对长文本阅读;与 FlowSpeech 相比,多说话者处理、语言/声音数量或脚本标记的便利性可能有不同权衡。