Gemini TTS：AI朗读有了感情、腔调、节奏、轻重、风格

AI 知识库6个月前发布驰💗

5,525 0 0

AI出文、出图、出视频，已经越来越听得懂“人话”了，那么，出语音呢？

读准字，对于AI来说，是最低要求，我记得10年前的有声读书，就能搞定（大多数人，一辈子都搞不定 Gemini TTS：AI朗读有了感情、腔调、节奏、轻重、风格

）。

难的是：根据内容，有感情、有节奏、有轻重、有自己风格的读出来。

今天，我们就来看，Gemini的语音模型（TTS）采取了什么途径。

Gemini TTS
Gemini TTS：AI朗读有了感情、腔调、节奏、轻重、风格 https://aistudio.google.com/generate-speech
以下，是我们需要填的信息，看起来也不是很复杂，所以我就随便搞了搞：

怎么说呢，效果还行，但谈不上惊艳，也就这样吧。（“不管怎样”都读成“不管怎么样”，AI加工了，这是因为我在“创意”一项，开了“1”，给AI一定对文本的修正空间）

本来以为这次评测就此结束，直到我看了一个UP主的视频，我才知道，是我想简单了。Google针对这个功能是有一个官方说明书的：https://ai.google.dev/gemini-api/docs/speech-generation?hl=zh-cn提示指南Gemini 原生音频生成文字转语音 (TTS)模型与传统 TTS 模型的不同之处在于，它使用的大语言模型不仅知道要说什么，还知道怎么说。若要解锁此功能，用户可以把自己想象成导演，为虚拟配音演员设置表演场景。为了精心打造提示，我们建议您考虑以下组成部分：定义角色核心身份和原型的音频配置文件；确定实体环境和情感“氛围”的场景说明；以及提供有关风格、口音和节奏控制的更精确表演指导的导演注释。通过提供细致的指令，例如精确的地区口音、特定的副语言特征（例如气声）或语速，用户可以利用模型的上下文感知能力生成高度动态、自然且富有表现力的音频表演。为获得最佳效果，我们建议脚本和导演提示保持一致，以便“谁在说”与“说了什么”和“怎么说”保持一致。本指南旨在为您提供基本指导，并在您使用 Gemini TTS 音频生成功能开发音频体验时激发您的灵感。我们非常期待看到您的创作成果！
提示结构一个出色的提示应包含以下元素，这些元素共同构成出色的表演：