大家好!在 2025 年的 Google I/O 发表会上,Google 推出了全新的 Gemini 2.5 Pro 和 Flash 模型,其中文字转语音(TTS)功能的进步真是让人眼前一亮。我最关注的当然是 AI 语音到底能有多像真人。你现在听到的声音可不只是机器念稿,而是 AI 根据场景和角色自然切换说话风格哦!下面让我们一起来看看 Gemini 2.5 的 TTS 亮点,并通过一个介绍台湾美食的对话演示来体验这项技术。
Gemini 2.5 Pro:TTS 功能的飞跃
Gemini 2.5 Pro 的 TTS 功能带来了令人惊叹的表现,适用于教学、讲故事、客服等多种场景。它能精确控制语调细节,自动调整语气强弱、轻声细语或重音处理,表现得非常自然。不管是用于教育、叙述故事,还是模拟客服对话,这项技术都让 AI 语音更加接近人类,实用性极高。
演示:使用 Google AI Studio 生成多角色语音
为了展示这项技术,我们将通过 Google AI Studio 生成一段两分钟的对话,主题是介绍台湾美食。我们先用 ChatGPT 编写了一段讲稿,设定两位讲者:男生 Andy 和女生 Mako。讲稿要求为两分钟,并输入了角色名称以便后续对应。Prompt 内容已放在资讯栏,大家可以自由取用。接下来是实际操作步骤:
操作步骤
- 打开 Google AI Studio:进入平台,点击左侧的“Chat”选项。
- 启用语音生成:选择“Native Speech Generation”。如果画面较小,可以收起侧边栏以获得更清晰的显示。
- 选择模型:在右侧选择 Gemini 2.5 Flash 或 Pro Preview TTS,然后将模式设为“Multi-Speaker Audio”(多位讲者)。
- 粘贴讲稿:将准备好的讲稿粘贴到输入框。初始可能会显示“No Speakers Detected”的提示,因为我们尚未设定讲者和声音。
- 设置语音:在右侧的“Voice Settings”中,根据讲稿的角色名称(Andy 和 Mako)逐一设定讲者与声音。虽然预设播放可能是英文,但输入中文讲稿后,生成的声音会是自然的台湾腔。
- 运行脚本:设定好讲者后,中间的 Script Builder 会自动显示对应角色。点击“RUN”,稍等片刻,就能听到生成结果!
对话示例:台湾美食之旅
以下是我们生成的对话片段,带你走进台湾的美食天堂:
Andy:哈喽大家好,我是 Andy,今天我们要带大家进入台湾的美食天堂!
Mako:嗨嗨,我是 Mako!说到台湾美食,真的三天三夜都讲不完啦!这里不只好吃,还充满人情味。
Andy:没错!首先登场的是我们的国民小吃——卤肉饭。那咸香浓郁的卤汁,搭配热乎乎的白饭,哦,每一口都幸福感爆棚!
Mako:卤肉饭我可以连吃五碗耶!不过我最爱的是蚵仔煎,外酥内嫩,配上特制甜辣酱,一口咬下去就是海味与回忆的交响曲!
Andy:形容得太有诗意了啦!不过说到街边小吃,怎么能忘记盐酥鸡?酥脆多汁,撒上九层塔,根本是宵夜的王者!
Mako:还有珍珠奶茶!它是台湾走向世界的骄傲,每吸一口都像在喝快乐,珍珠 Q 弹到会跳舞!
Andy:真的耶!如果说台湾是一首歌,那美食就是那段让人忍不住一听再听、一吃再吃的副歌!
Mako:而且每个城市都有自己的味道:台南甜、台中平衡、台北多元,真是吃不腻!
生成的音频还可以下载,直接用于你的项目,是不是很方便?
TTS 技术的未来
从 AI 主播的角度来看,Gemini 2.5 的 TTS 技术越来越强大,应用前景也非常广阔。无论是教育、内容创作、帮助视障者学习、语言练习、YouTube 播客、有声故事、多语朗读、语音客服、电话语音,还是 AI 助理,这项技术都能大放异彩。生成的台湾腔自然流畅,角色切换毫无违和感,情感表达也十分到位,展现了 AI 语音的巨大进步。
AI 技术的迭代速度快得惊人,今天介绍的内容可能过几天又会被更新的技术取代。我对这次 TTS 升级感到非常兴奋,也期待未来更多的创新!今天的分享就到这里,我们下次见!