UStackUStack
Gemini 3.1 Flash TTS icon

Gemini 3.1 Flash TTS

Gemini 3.1 Flash TTS 是 Google 文本转语音模型,生成更自然有表现力的 AI 语音;支持细粒度音频标签控制语音风格与节奏,70+ 语言,并带 SynthID 水印。

Gemini 3.1 Flash TTS

什么是 Gemini 3.1 Flash TTS?

Gemini 3.1 Flash TTS 是 Google 最新的文本转语音 (TTS) 音频模型,旨在生成更自然且富有表现力的 AI 语音。其核心目的是帮助开发者和用户从文本生成语音,同时对语音表达方式实现更精细的控制。

该模型引入了细粒度音频标签,可通过文本输入中的自然语言命令嵌入。这些标签用于引导语音风格、节奏和表达,支持更精确的富有表现力的音频生成。

主要特性

  • 提升语音质量:设计得比之前版本更自然且富有表现力。
  • 细粒度“音频标签”控制:内联音频标签可调整语音风格、节奏和表达,实现更精确的定向输出。
  • 通过标签的自然语言引导:音频标签接受文本输入中的自然语言命令,从而直接从提示中引导语音特征。
  • 原生多说话者对话:支持在音频生成流程中指定多个说话者的对话。
  • 支持 70+ 语言:适用于需要本地化、特定语言语音输出的全球用例。
  • SynthID 水印:音频带有 SynthID 水印,帮助识别 AI 生成音频并降低虚假信息风险。

如何使用 Gemini 3.1 Flash TTS

  • 在 AI Studio 环境中试用:从 Google AI Studio Playground 开始,生成高保真语音并实验可用控制和标签。
  • 使用可用的开发者接口:开发者可通过 Gemini API 和 Google AI Studio(预览版)生成语音并将模型集成到应用中。
  • 导出一致的语音参数:使用控制(包括音频标签)调整到理想表现后,将配置导出为 Gemini API 代码,以便跨项目重复使用相同参数。
  • ** rollout 期间使用企业或 Workspace 选项**:文章指出,该模型通过 Vertex AI(预览版)向企业 rollout,并通过 Google Vids 向 Workspace 用户提供。

使用场景

  • 多媒体中的角色驱动对话:使用场景指导和说话者级别的具体性,保持角色“角色一致性”,并在中途调整表达。
  • 多语言产品的本地化语音:生成 70+ 语言的语音,支持受控节奏和口音特征,以适应本地化工作流。
  • 带表达控制的脚本转音频制作:在文本输入中添加音频标签,直接控制表达(风格和速度),帮助叙述与创意意图对齐。
  • 交互体验的多说话者音频:创建切换说话者的对话,同时保留独特的语音设置,适用于交互演示、培训内容或叙事体验。
  • 团队可重复的语音指导:使用导出的 Gemini API 代码/配置,让团队在不同项目中一致应用相同的语音设置。

常见问题

  • 在哪里可以试用 Gemini 3.1 Flash TTS? 文章指出,可在 Google AI Studio 中测试,并通过 Gemini API 向开发者 rollout。还提到 Vertex AI(企业预览版)和 Google Vids(Workspace 用户)。

  • 什么是音频标签? 音频标签是嵌入式命令,用于控制语音属性,如 语音风格、节奏和表达。它们在文本输入中使用,以引导生成的音频。

  • 支持多少语言? 文章指出支持 70+ 语言

  • 生成的音频包含水印吗? 是的。文章指出,所有音频均带有 SynthID 水印,以识别 AI 生成音频。

  • 模型是否立即全球可用? 页面描述为开发者通过 Gemini API/AI Studio 的 预览版 rollout,以及企业通过 Vertex AI。同时指出通过 Google Vids 的 Workspace 访问,表示分阶段可用。

替代方案

  • 同一生态系统的其他文本转语音模型:如果需要不同的延迟、风格控制或集成模式,可以考虑开发者和工作室环境中提供的其他 TTS 选项。
  • 提供语音控制的通用 TTS 解决方案:寻找支持基于提示或参数控制语音属性(风格、速度、表达)的 TTS 平台,而无需依赖 Gemini 专属音频标签。
  • 注重水印和归属的语音生成工作流:如果归属是首要优先级,请比较提供音频水印或溯源功能的解决方案,并与您的合规和安全需求对齐。
  • 手动工作室语音制作或混合工作流:对于需要最大控制表演和制作资产的团队,混合方法(人工录音 + 有限 AI 辅助)可以减少对自动化表现力控制的依赖。