AI视频有了音画同步后，我想看看语音合成能不能活下来

最近的AI视频模型，几乎都能做音画同步了。

给它一段台词，人物开口说话，嘴型能对上，背景里还有环境声，连语气都能带点情绪。以前的制作流程都是先把画面生成出来，然后再用语音合成模型合成配音，做音乐，最后再对口型和剪辑成片。AI视频自己就能搞定声音的话，语音合成是不是可以被优化了？问题是现在的AI视频是片段式的生成，一次性支持生成 15 秒，在展现一段比较长的戏时，受到时长限制，整个表演的情绪是断掉的，也比较容易衔接不上。

我做了一个年初二拜年被七大姑八大姨催婚的经典片段来对比看看，这段视频里，AI视频是分段做出来的，有的片段要在十几秒的内容里塞入大量的对话，这会导致AI说话语速超快，偶尔也会因为时长不够，导致话没说完就被切断的情况。仔细听AI出的音色，在不同的片段中，其实还是会有些不太一样。但如果我们转个思路，用音频来驱动画面生成的话，就不会出现这种情况了。在成熟的AI视频短片的制作角度上来看，对于对话片段或者是以语言表达为主的画面，可以先生成音频，直到产出比较满意的情绪，然后再使用这段音频去驱动同等时长的人物说话镜头。

像Minimax最近推出了新版本Speech-2.8。🔗minimaxi.com/audio这个版本跟之前不太一样的地方就是，新增了在一整段音频中添加不同的情绪、可以在句子中间，词组之间增加停顿，可以直接在括号里面加入一些语气词（比如轻笑、吸鼻子、清嗓子等等）等功能。

就上面图中这个提示语，我们先来听听效果，

从整个音频的这一段话中，能够感觉到情绪是从开心到难过，到有点释然，再到有一点点难过的转变过程。这个放到AI视频里，可能就是需要抽卡了。MiniMax Speech-2.8现在可以在句子中间加入吸气、叹气等换气方式。这种模拟真人说话的细节非常灵活，可以根据我们自己的需求，把这些语气加入进去。我又尝试了一下更明显的情绪转变，像是讲一个冷笑话的感觉，从原本恐惧的情绪突然转变为开心的情绪，讲述自己实际上看到的并不是恐怖的东西，这有一种突然放松的感觉。

我们能加入的这些非语言性的语气词，其实就是在辅助情绪的表达，让整个 AI 生成的语音更加符合人受惊吓时的本能，让整段声音表演的情绪转化更自然。或者我们在给一些影片进行风格化的旁白配音的时候，也可以使用 MiniMax。以前用AI生成语音，其实很难做到自然的换气。你会发现 AI 往往会一口气说出很长的一段话，让人有一种喘不上气的感觉。但在 MiniMax Speech-2.8 里，是可以在一句话的中间加入「正常换气」这个语气词。

甚至现在还有一些更有意思的东西。比如在语气词里加入哼唱，我们在制作一些比较调皮、可爱的角色时，可以在他说话的前面加上一段哼唱，这样表现出来的效果就会更加生动。而且我这里发现了一个小tips，如果你想要它连续哼唱出来一段旋律，可以连续多添加几个「哼唱」的语气词，将这些语气词叠在一起，它就可以输出一段用你选中的音色哼唱出来的旋律，听起来更活泼。

或者，在表达某些感受的时候，其实也可以用上这些语气词。就比如说在表达很疼、很痛的时候，可以用这个「嘶嘶声」。这能很好地表现出人物被碰到伤口时那种撕拉的疼痛感，非常有现场感。而且我发现只要你叠的语气词数量越多，它呈现的语气程度就会越重，越明显。

而且 MiniMax 已经内置了非常丰富的音色选择，适配非常多的角色。但如果你觉得这些预设音色都不太适合自己的角色，还可以用提示语自己设计一个专属音色。

然后返回语音合成页面，写好你在这个语音中需要的文本，以及上面我们介绍过的那些语气词和情绪。最后在右面选择你刚刚生成的音色，就能得到一段完全自定义的音频了。

后续你还可以一直使用这个音色进行持续不断的生成，相当于自己创建了一个声优角色。而且现在还是进去就有10000积分可以直接用，已经够生成很多很多音频片段了。这一圈体验下来，我已经想好什么时候用音画同步，什么时候用语音参考生成视频了。AI视频模型的音画同出，解决的是效率问题，它让普通人也能快速产出基本完整的视听内容。但MiniMax Speech-2.8解决的是完成度的问题。对于成熟的漫剧，短剧，甚至电影制作来说，画面和声音，通常都需要被分开打磨。你需要一个独立的配音棚，去保证所有角色音色的统一，去补录那些不够完美的表演，去为一个关键镜头，反复调整演员说话的口气和节奏。这就是我们平时在看影视剧的时候会发现，除了拍摄影视剧的总导演之外，实际上经常会有一个声效导演的职位，他的职责就是去把控整部影片的声音问题，让影片的声效在配合高质量画面的同时，也能够给大家带来听觉上的冲击。所以即便是有了演员的现场录音，但可能因为表演时的情绪或者是口音问题，还是会让演员在后期对自己的表演进行重新配音。MiniMax Audio让我们也可以低成本即可实现专业配音效果，按照我们的想法去调整音色，语速，语气词，让一句话中拥有不同的情感层次。毕竟，让画面拥有生命力的，是表演。而让表演拥有灵魂的，往往是声音。

@ 作者 / 卡尔 & 阿汤