




- 单人配音

同步生成的背景音乐也很有气势,和人物声音、情绪很贴合。
- 多角色配音

两人对话实测下来,双人对话的自然度比普通 TTS 好很多。女逗哏的节奏更快,情绪转换非常自然,男捧哏的反应更慢,每个音色都很有特点,音色一致性也保持的很棒。重点是豆包音频生成模型1.0 还直接生成了相声表演现场的观众笑声,非常自然。一句话就能感受到身临其境的场景,AI 配音的效率提升可见一斑。
- 有声书长文本
豆包音频生成模型1.0 会自动识别有声书内容,比如文本中风雪灌进宫门的描写,自动去推理和匹配适合的音效。女主声音冷静、克制,大臣声音慢、带有压迫感,旁白、不同的角色声线都有较高的辨识度。人声、环境音和背景音乐的音量比例也相对适中,省去了我们在剪辑软件里反复拉音量条的繁琐步骤。不过豆包音频生成模型1.0 单次最多生成 2 分钟的音频。如果要做完整有声书,需要分段生成。长文本生成效果一般,部分对话的顺序会颠倒,多音字的识别效果不太稳定,需要备注读音。
- AI 短剧配音
人物的对白非常自然,能够让人感受到情绪的流动。雨声、卡片翻动的声音都在帮我们建立画面。声音不再是视频做完后最后贴上去的配件,而是可以从脚本阶段就参与创作。
- 复刻声音

生成的音色与参考音色有较高的相似度,并且保留了脱口秀所需的自嘲与松弛感,包袱点的停顿和观众笑声的穿插非常自然。豆包音频生成模型1.0 不仅能克隆音色,还能代入更多的情绪,更像是用音色在完成一场表演。

© 版权声明
文章版权归作者所有,未经允许请勿转载。
