)。
Gemini TTS
https://aistudio.google.com/generate-speech
以下,是我们需要填的信息,看起来也不是很复杂,所以我就随便搞了搞:

怎么说呢,效果还行,但谈不上惊艳,也就这样吧。(“不管怎样”都读成“不管怎么样”,AI加工了,这是因为我在“创意”一项,开了“1”,给AI一定对文本的修正空间)
本来以为这次评测就此结束,直到我看了一个UP主的视频,我才知道,是我想简单了。Google针对这个功能是有一个官方说明书的:https://ai.google.dev/gemini-api/docs/speech-generation?hl=zh-cn提示指南Gemini 原生音频生成文字转语音 (TTS)模型与传统 TTS 模型的不同之处在于,它使用的大语言模型不仅知道要说什么,还知道怎么说。若要解锁此功能,用户可以把自己想象成导演,为虚拟配音演员设置表演场景。为了精心打造提示,我们建议您考虑以下组成部分:定义角色核心身份和原型的音频配置文件;确定实体环境和情感“氛围”的场景说明;以及提供有关风格、口音和节奏控制的更精确表演指导的导演注释。通过提供细致的指令,例如精确的地区口音、特定的副语言特征(例如气声)或语速,用户可以利用模型的上下文感知能力生成高度动态、自然且富有表现力的音频表演。为获得最佳效果,我们建议脚本和导演提示保持一致,以便“谁在说”与“说了什么”和“怎么说”保持一致。本指南旨在为您提供基本指导,并在您使用 Gemini TTS 音频生成功能开发音频体验时激发您的灵感。我们非常期待看到您的创作成果!
提示结构一个出色的提示应包含以下元素,这些元素共同构成出色的表演:
- 音频配置文件– 为语音建立角色,定义角色身份、原型和任何其他特征,例如年龄、背景等。
- 场景– 设置舞台。描述了实体环境和“氛围”。
- 导演笔记– 效果指南,您可以在其中细分哪些指令对虚拟人才来说需要注意。例如,风格、呼吸、节奏、发音和口音。
- 示例上下文– 为模型提供上下文起点,以便虚拟演员自然地进入您设置的场景。
- 转写内容– 模型将朗读的文本。为获得最佳效果,请注意转写内容的主题和写作风格应与您给出的指令相关。
另外,人家还直接提供了一个模板:(所以说,还是不能闭门造车呀,AI还是要多看多学
)

那么接下来,就清楚了,我们需要根据官方提供的提示词,打造一个智能体,我用豆包试了试:

我上传了原文后,豆包给了我“朗读剧本”:

随即我把这个脚本,交给了Gemini TTS:(这次在风格说明中,明显多了很多字)

效果如下:
此前,我是怎么开脑洞都没有想到:可以用一个AI进行朗读的风格指导,然后另一个AI还能按照这个指导进行执行——输出和文章风格匹配的朗读音频?!

要知道,这些AI语音的贡献者,都不是中国人,也不会中文,完全是AI提取他们的音色、“教会”他们中文、然后按照指定的风格说话:

后续,我在Gemini上面做了一个智能体(Gem),那就更强大了:

可以根据我的文章,帮我挑选合适的朗读者:(我给了它名单——上图“知识”)

在独白中加(括号),让AI对具体句子进行处理(它自动识别不会读出来)。这个设计不仅是对AI,对人都很有帮助好吧。

他甚至还能建议配什么音乐,以及配套的幻灯片:




© 版权声明
文章版权归作者所有,未经允许请勿转载。
