Gemini 3.1 Flash TTS

Gemini 3.1 Flash TTS 是 Google 的预览版文本转语音模型，可生成富有表现力的 AI 语音，并支持对风格、语速和表达方式进行细粒度控制，适用于 Gemini API、Google AI Studio、Vertex AI 和 Google Vids。

AI语音合成

文本转语音

访问网站

概述

Gemini 3.1 Flash TTS 是 Google 的文本转语音模型，可生成富有表现力的 AI 语音，并对音频听感提供更精细的控制。发布公告强调了更好的自然度、更清晰的节奏控制，以及新的音频标签，可让开发者通过自然语言指令来引导语音风格和表达方式。

该模型正以预览版形式面向开发者通过 Gemini API 和 Google AI Studio 推出，面向企业通过 Vertex AI 推出，并面向 Workspace 用户通过 Google Vids 提供。它支持 70+ 种语言、原生多说话人对话，以及为每个生成的音频输出提供 SynthID 水印标记。

功能

提升的语音质量

该模型被介绍为 Google 迄今最自然、最具表现力的文本转语音模型，具备更好的语音质量和可控性。

细粒度音频标签

音频标签可让用户通过嵌入文本输入的自然语言指令来控制声音风格、语速、表达方式、语调和口音。

由 Studio 驱动的表演控制

Google AI Studio 提供可配置的场景指挥、说话人级别的具体设定和内嵌标签，帮助开发者塑造多轮表演。

无缝导出为 API 代码

开发者可以将 Google AI Studio 中的精确声音参数导出为 Gemini API 代码，以便在不同项目和平台间一致复用。

多说话人和多语言支持

该模型支持原生多说话人对话和 70+ 种语言，因此适合本地化和对话式语音体验。

SynthID 水印

所有生成的音频都会经过 SynthID 水印标记，以支持对 AI 生成内容的检测。

使用场景

开发者语音应用
构建需要可控表达方式的合成语音应用，例如角色声音、旁白体验或交互式助手。
语音工作流原型设计
在 Google AI Studio 中原型化语音体验，用标签和注释优化语速与语调，并将结果设置导出到 Gemini API 代码。
多语言内容制作
为多个语言受众创建本地化语音体验，同时保持风格和口音控制的一致性。
Workspace 视频旁白
当你需要为 Workspace 媒体工作流生成 AI 语音时，可在 Google Vids 中使用该模型。
带水印的合成音频
当你需要可检测的 AI 生成语音以便更安全分发时，生成内置 SynthID 水印的音频。

Pros and Cons

Pros

可通过音频标签对声音风格、语速、语调和口音进行细粒度控制。
支持 70+ 种语言和原生多说话人对话。
可将 Studio 设置导出为 Gemini API 代码，便于重复性工作流。
所有生成音频都包含 SynthID 水印。
可在多个 Google 场景中使用，包括 Gemini API、Google AI Studio、Vertex AI 和 Google Vids。

Cons

来源未提供价格、套餐限制或按地区可用性的详细信息。
高级控制功能主要基于发布公告描述，在特定工作流中可能需要实际测试才能评估。

FAQ

Gemini 3.1 Flash TTS 在哪里可用？

它正在通过 Gemini API 和 Google AI Studio 向开发者以预览版形式推出，通过 Vertex AI 向企业以预览版形式推出，并通过 Google Vids 向 Workspace 用户提供。

它支持多少种语言？

公告称它支持 70+ 种语言，并包含原生多说话人对话。

它为开发者提供了哪些语音输出控制？

开发者可以在 Google AI Studio 中使用音频标签、Audio Profiles、Director’s Notes 和内嵌标签来控制声音风格、语速、语调、口音和说话表现，然后将相同参数导出为 Gemini API 代码。

生成的音频有水印吗？

Gemini 3.1 Flash TTS 生成的所有音频都会用 SynthID 进行水印标记；文中将其描述为用于检测 AI 生成音频的不可感知水印。

它多少钱？

来源未在产品页面提供定价信息，而研究集中链接的定价页面返回 404。

Quick Facts

类别: AI 语音 / 文本转语音
主要用户: 开发者、企业和 Workspace 用户
可用性: 预览版推出
平台: Gemini API、Google AI Studio、Vertex AI、Google Vids
语言: 70+ 种语言
水印: SynthID