AI视频有了音画同步后,我想看看语音合成能不能活下来

AI 知识库12小时前发布 AI沃茨
698 0 0
熊猫办公
最近的AI视频模型,几乎都能做音画同步了。

给它一段台词,人物开口说话,嘴型能对上,背景里还有环境声,连语气都能带点情绪。以前的制作流程都是先把画面生成出来,然后再用语音合成模型合成配音,做音乐,最后再对口型和剪辑成片。AI视频自己就能搞定声音的话,语音合成是不是可以被优化了?问题是现在的AI视频是片段式的生成,一次性支持生成 15 秒,在展现一段比较长的戏时,受到时长限制,整个表演的情绪是断掉的,也比较容易衔接不上。

我做了一个年初二拜年被七大姑八大姨催婚的经典片段来对比看看,这段视频里,AI视频是分段做出来的,有的片段要在十几秒的内容里塞入大量的对话,这会导致AI说话语速超快,偶尔也会因为时长不够,导致话没说完就被切断的情况。仔细听AI出的音色,在不同的片段中,其实还是会有些不太一样。但如果我们转个思路,用音频来驱动画面生成的话,就不会出现这种情况了。在成熟的AI视频短片的制作角度上来看,对于对话片段或者是以语言表达为主的画面,可以先生成音频,直到产出比较满意的情绪,然后再使用这段音频去驱动同等时长的人物说话镜头。

AI视频有了音画同步后,我想看看语音合成能不能活下来

像Minimax最近推出了新版本Speech-2.8。🔗minimaxi.com/audio这个版本跟之前不太一样的地方就是,新增了在一整段音频中添加不同的情绪、可以在句子中间,词组之间增加停顿,可以直接在括号里面加入一些语气词(比如轻笑、吸鼻子、清嗓子等等)等功能。

AI视频有了音画同步后,我想看看语音合成能不能活下来

就上面图中这个提示语,我们先来听听效果,

从整个音频的这一段话中,能够感觉到情绪是从开心到难过,到有点释然,再到有一点点难过的转变过程。这个放到AI视频里,可能就是需要抽卡了。MiniMax Speech-2.8现在可以在句子中间加入吸气、叹气等换气方式。这种模拟真人说话的细节非常灵活,可以根据我们自己的需求,把这些语气加入进去。我又尝试了一下更明显的情绪转变,像是讲一个冷笑话的感觉,从原本恐惧的情绪突然转变为开心的情绪,讲述自己实际上看到的并不是恐怖的东西,这有一种突然放松的感觉。

AI视频有了音画同步后,我想看看语音合成能不能活下来

我们能加入的这些非语言性的语气词,其实就是在辅助情绪的表达,让整个 AI 生成的语音更加符合人受惊吓时的本能,让整段声音表演的情绪转化更自然。或者我们在给一些影片进行风格化的旁白配音的时候,也可以使用 MiniMax。以前用AI生成语音,其实很难做到自然的换气。你会发现 AI 往往会一口气说出很长的一段话,让人有一种喘不上气的感觉。但在 MiniMax Speech-2.8 里,是可以在一句话的中间加入「正常换气」这个语气词。

AI视频有了音画同步后,我想看看语音合成能不能活下来

甚至现在还有一些更有意思的东西。比如在语气词里加入哼唱,我们在制作一些比较调皮、可爱的角色时,可以在他说话的前面加上一段哼唱,这样表现出来的效果就会更加生动。而且我这里发现了一个小tips,如果你想要它连续哼唱出来一段旋律,可以连续多添加几个「哼唱」的语气词,将这些语气词叠在一起,它就可以输出一段用你选中的音色哼唱出来的旋律,听起来更活泼。

AI视频有了音画同步后,我想看看语音合成能不能活下来

或者,在表达某些感受的时候,其实也可以用上这些语气词。就比如说在表达很疼、很痛的时候,可以用这个「嘶嘶声」。这能很好地表现出人物被碰到伤口时那种撕拉的疼痛感,非常有现场感。而且我发现只要你叠的语气词数量越多,它呈现的语气程度就会越重,越明显。

AI视频有了音画同步后,我想看看语音合成能不能活下来

而且 MiniMax 已经内置了非常丰富的音色选择,适配非常多的角色。但如果你觉得这些预设音色都不太适合自己的角色,还可以用提示语自己设计一个专属音色。

AI视频有了音画同步后,我想看看语音合成能不能活下来

然后返回语音合成页面,写好你在这个语音中需要的文本,以及上面我们介绍过的那些语气词和情绪。最后在右面选择你刚刚生成的音色,就能得到一段完全自定义的音频了。

AI视频有了音画同步后,我想看看语音合成能不能活下来

后续你还可以一直使用这个音色进行持续不断的生成,相当于自己创建了一个声优角色。而且现在还是进去就有10000积分可以直接用,已经够生成很多很多音频片段了。这一圈体验下来,我已经想好什么时候用音画同步,什么时候用语音参考生成视频了。AI视频模型的音画同出,解决的是效率问题,它让普通人也能快速产出基本完整的视听内容。但MiniMax Speech-2.8解决的是完成度的问题。对于成熟的漫剧,短剧,甚至电影制作来说,画面和声音,通常都需要被分开打磨。你需要一个独立的配音棚,去保证所有角色音色的统一,去补录那些不够完美的表演,去为一个关键镜头,反复调整演员说话的口气和节奏。这就是我们平时在看影视剧的时候会发现,除了拍摄影视剧的总导演之外,实际上经常会有一个声效导演的职位,他的职责就是去把控整部影片的声音问题,让影片的声效在配合高质量画面的同时,也能够给大家带来听觉上的冲击。所以即便是有了演员的现场录音,但可能因为表演时的情绪或者是口音问题,还是会让演员在后期对自己的表演进行重新配音。MiniMax Audio让我们也可以低成本即可实现专业配音效果,按照我们的想法去调整音色,语速,语气词,让一句话中拥有不同的情感层次。毕竟,让画面拥有生命力的,是表演。而让表演拥有灵魂的,往往是声音。

@ 作者 / 卡尔 & 阿汤


© 版权声明

相关文章