声音从“能听”到“有戏”，AI 配音这次真的进步了

大家好，这里是K姐。一个帮助你把AI真正用起来的女子。

你可能也在烦恼：用 AI 生成大片，画面质感已经很到位了，可角色一开口，瞬间让人出戏。画面里明明在经历生死关头，配音听起来却像在四平八稳地念产品说明书；好不容易有点情绪起伏，也全靠生硬的大喊大叫…更难受的是，不同的片段里角色的音色完全不一样，很难保持音色一致性。更别说后面还需要自己添加环境音、音效、背景音乐，对口型…非常折腾。

前不久的火山引擎 FORCE 原动力大会上，字节正式发布了豆包音频生成模型 1.0，丰富且有情绪的声音素材也能端到端生成了。我们输入一段提示词，豆包音频生成模型1.0 就能把人声、音效、配乐、场景声一次性打包生成。不仅省去了繁琐的多轨混剪，还能模拟出真人说话时细微的呼吸和情绪变化，让 AI 声音听起来更自然、更有人味儿。在真实创作中表现怎么样呢？今天我们一起实测看看。

多场景下的 AI 声音魔法

我们打开火山方舟体验中心，选择豆包音频生成模型1.0，普通用户有30 分钟的免费体验额度，后续可通过 API 调用。

我们输入效果提示词和合成文本，点击生成就可以得到一段包含人声和环境音的完整声音片段。

单人配音

我试着生成了一段小说人物独白。

背景音乐轻微铺底，以低沉弦乐、远处鼓声和空灵女声吟唱为主，开头压抑肃穆，像风雪前的寂静；随着人物情绪推进，音乐逐渐增强，但不要盖过人声，整体氛围从孤身赴局到破局立道，庄严、悲壮、克制而高燃。谢长安（青年女声，音色清冷通透，声线稳定，略带压抑感，后段逐渐坚定高燃）状态平静、克制、像在万众注视下立下自己的道一般说道：“满朝贵人都爱惜己身，那就只能由我这样一个小人物来动手，我的道，是众生道，众生，人人可走。有局必有破局之法，与其顺应而行，不如绝地求生，说不定柳暗花明，就在意想不到的第三条路。”

一开始我写青年女声，清冷通透，结果声音偏软，仙气有了，压迫感不够。后来我把提示词改成青年女中音、不要甜美、不要软萌、不要少女感，效果就很接近大女主了。

同步生成的背景音乐也很有气势，和人物声音、情绪很贴合。

多角色配音

我们上传一段双人相声，设置了2个差异比较大的角色：

背景音乐极轻，以小剧场开场锣鼓和短促三弦点缀为主，开头有轻微观众环境声，整体氛围热闹、轻松、接地气。笑声可以少量出现，但不要频繁，不要盖住对白，人声必须清晰靠前。女逗哏（青年女声，声音明亮清脆，语速快，嘴皮子利索，带一点京味儿和俏皮感，情绪外放但不尖锐）状态兴奋、得意，像发现新工具一样说道：“我跟你说，现在 AI 配音可厉害了，我把稿子一输进去，它直接给我说出来。”男捧哏（中年男声，声音低沉厚实，语速慢半拍，语气稳，带一点冷幽默和怀疑感）状态淡定、质疑地接话说道：“这有什么新鲜的？以前也能说。”女逗哏（青年女声，语气抬高，夸张但可爱）说道：“以前那叫说吗？以前那叫电梯播报。”男捧哏（中年男声，慢半拍，认真接梗）说道：“还挺有纪律。”女逗哏（青年女声，快速接住，带笑）说道：“纪律是有了，感情是一点没有。”男捧哏（中年男声，低声笑一下）说道：“主打一个众生平等。”女逗哏（青年女声，继续兴奋，语速快）说道：“现在不一样了。你让它说儿童故事，它能温柔；你让它说悬疑短剧，它能压低声音；你让它说大女主，它还能带点破局的劲儿。”男捧哏（中年男声，故意怀疑）说道：“那让它说相声呢？”女逗哏（青年女声，停顿一下，认真）说道：“这不正说着呢吗？”男捧哏（中年男声，慢半拍，突然反应过来）说道：“合着我也被生成了？”

▲上下滑动查看全文

两人对话实测下来，双人对话的自然度比普通 TTS 好很多。女逗哏的节奏更快，情绪转换非常自然，男捧哏的反应更慢，每个音色都很有特点，音色一致性也保持的很棒。重点是豆包音频生成模型1.0 还直接生成了相声表演现场的观众笑声，非常自然。一句话就能感受到身临其境的场景，AI 配音的效率提升可见一斑。

有声书长文本

复杂的有声书，往往需要多角色、多环境声的配合。我们尝试了一段复杂的古风悬疑群像：

背景音乐轻微铺底，以低沉弦乐、远处鼓声和冷调古琴为主，整体氛围肃杀、冷冽、压抑，带古风权谋感。第一章宫门与朝堂场景，音乐庄严紧绷，像风雪压城；第二章偏殿密谈场景，音乐更低、更暗，增加轻微悬疑感。环境音包括风雪声、宫门开启声、衣料摩擦声、殿内灯芯爆响、远处禁军脚步声。人声必须清晰靠前，音乐和环境音不要盖过对白。旁白（成年女声，低沉沉稳，叙事感强，语速中等偏慢，声音有画面感和悬疑感，不要播音腔）状态冷静、克制，像在讲述一场风雪夜里的朝堂杀局。沈照雪（青年女中音，声线冷冽、稳定、偏低，有胸腔支撑，咬字清晰，尾音干净，不要甜美、不要软萌、不要少女感）状态隐忍、冷静、锋利，前期压着怒意，后期逐渐显露破局的决绝和掌控感。萧承（青年男声，低沉清冷，语速不快，声音克制，带东宫太子的疏离感和试探感）状态谨慎、沉稳、压抑，像多年蛰伏的人在试探一把可能伤人的刀。裴敬之（中老年男声，低沉薄冷，语速慢，咬字稳，带权臣的压迫感和审视感）状态从容、傲慢、危险，像习惯了掌控朝局的人第一次遇到失控变量。小皇帝（少年男声，声音偏稚嫩但努力端正，语气有紧张和不安）状态被朝局压住，既想问真相，又害怕真相。周侍郎（中年男声，声音略虚，语速先稳后乱）状态心虚、惊慌、强撑镇定。禁军/守将（成年男声，声音低沉短促，语气服从、紧张）状态肃穆、戒备。小太监（少年男声，声音发抖，气息不稳）状态恐惧、崩溃、求生。沈照雪进京那日，北境的讣告比她先到。讣告上写得明白：镇北军粮道使沈照雪，押送军粮途中遇匪，连人带车坠入黑峡，尸骨无存。可黄昏时分，她披着一件洗得发白的狐裘，牵着一匹瘦马，站在了朱雀门外。守门的禁军看见她腰间那枚半裂的铜雀符，脸色当场变了。铜雀符是先帝赐给镇北军的调兵信物，一半在北境，一半在御案。天下人都知道，北境那半枚，十年前随沈家满门入狱后便失踪了。沈照雪抬手，把铜雀符放在守将掌心。“烦请通传。”她说，“死人回京，想见一见活着的诸公。”风雪灌进宫门，守将的手一抖。半个时辰后，太极殿灯火尽燃。殿中站满了人。左相裴敬之披着紫袍，手里的象牙笏板压在袖中。他年过五旬，眼皮很薄，抬眼看人时，总像在看一页将要烧掉的纸。太子萧承坐在御阶下首，指尖缓慢摩挲茶盏。他身旁的小皇帝只有十二岁，肩上的龙袍宽得像借来的。沈照雪跪在殿中，雪水从衣角滴到青砖上。裴敬之先开口。“沈氏罪女，既未死，何不先去刑部投案？”沈照雪抬起头。她脸色很白，眼神却稳。“臣女若先去刑部，今晚诸位大人就听不见北境的消息了。”殿上有人冷笑。“你一个罪臣之后，能带什么消息？”沈照雪从袖中取出一卷油布，双手呈上。“十七万石军粮，三个月前出了洛仓，账上写着已入北境。可镇北军收到的，只有五万石。”殿中一静。裴敬之没有动。太子萧承却轻轻放下茶盏。“继续说。”沈照雪道：“缺的十二万石，换成白银，足够养三万私兵一年。”有人当场斥道：“放肆！你可知自己在说什么？”“知道。”沈照雪看向那人，“户部右侍郎周大人，您批的出仓文书，印泥里掺了朱砂。臣女从黑峡捡回来的半截粮牌上，正好也有这个印。”周侍郎脸上的血色褪得干干净净。裴敬之终于抬眼。“沈姑娘坠崖未死，倒是长了一张利口。”沈照雪笑了笑。“坠崖前，臣女也不爱说话。”殿外风声更重。小皇帝攥紧龙椅扶手，小声问：“那粮呢？”这句话落下，满殿官员都低了头。沈照雪看着那个少年皇帝。“粮没了。”她顿了顿。“北境也快没了。”太子萧承的眼神沉下去。“镇北军如何？”“七日前，羌戎破了霜河口。镇北军退守沉沙城，城中只余两日粮。”小皇帝站了起来。“为何无人奏报？”沈照雪没有立刻答。她从怀中拿出第二样东西。一支断箭。箭杆上缠着半截红布，红布已经被血浸成黑色。“因为送奏报的人，死在入京前三十里。”她把断箭放到地上。“这是第六个。”殿中无人再笑。太子萧承缓缓起身，走下御阶。他停在沈照雪三步外，视线落在她肩头那片未融的雪上。“你想要什么？”“开仓。”“只要开仓？”“还要一队禁军，护我去洛仓提粮。”裴敬之终于笑了一声。“你要兵？”沈照雪看向他。“裴相说错了，我要的是路。”裴敬之的笑意淡了。“洛仓在京畿，守仓兵马皆归户部调度。一个罪臣之女，凭什么开仓？”沈照雪将手伸进袖中。禁军齐齐按刀。她取出的却是一封血书。血书上的字已经糊了大半，只剩最后一行仍看得清楚。臣沈怀山，愿以满门性命，换北境三年无战。沈怀山是她父亲。十年前，他被定为私通羌戎，满门下狱。沈照雪那年十五岁，跪在刑部门口三日，没人敢给她一口水。如今那封从未送到御前的血书，躺在殿上，像一块迟来的骨头。小皇帝脸色发白。裴敬之的手指在袖中动了一下。沈照雪看见了。她俯身叩首，声音不高，却压过了殿外风雪。“臣女凭沈家十年前没能送到的一封奏疏，凭北境七万将士的命，凭沉沙城中尚未断气的百姓。”她抬起头。“若仍不够，臣女愿立军令状。”萧承问：“几日？”“三日。”“若粮不到沉沙城？”沈照雪看着他，一字一句道：“我死在城门前。”殿上安静得能听见灯芯爆响。

▲上下滑动查看全文

豆包音频生成模型1.0 会自动识别有声书内容，比如文本中风雪灌进宫门的描写，自动去推理和匹配适合的音效。女主声音冷静、克制，大臣声音慢、带有压迫感，旁白、不同的角色声线都有较高的辨识度。人声、环境音和背景音乐的音量比例也相对适中，省去了我们在剪辑软件里反复拉音量条的繁琐步骤。不过豆包音频生成模型1.0 单次最多生成 2 分钟的音频。如果要做完整有声书，需要分段生成。长文本生成效果一般，部分对话的顺序会颠倒，多音字的识别效果不太稳定，需要备注读音。

AI 短剧配音

我们再试试生活化 AI 短剧。普通 TTS 只能读台词，但短剧需要声音有空间感。

背景音乐轻微铺底，以温暖钢琴、轻柔弦乐和微弱城市环境音为主，整体氛围真实、生活化、带一点温情和反转，不要悬疑恐怖。环境音包括咖啡店轻微人声、杯子碰撞声、门铃声、手机震动声、雨后街道车辆声。人声必须清晰靠前，音乐不要盖过对白。旁白（成年女声，音色温和沉稳，语速中等，带生活故事叙事感）状态平静、细腻，像在讲述一件发生在普通人身上的小事。林夏（青年女声，声音干净清亮，语气有点疲惫但很克制）状态从失落、强撑体面，到后半段慢慢释然。周砚（青年男声，音色低沉温和，语速不快，语气真诚但有点笨拙）状态小心、愧疚、努力解释，不要霸总腔。店员（青年女声，声音轻快自然，语气礼貌）状态短促出现，生活化。章节内容：《靠窗的位置》旁白：“林夏和周砚约在那家咖啡店，是分手后的第七天。”旁白：“雨刚停，窗外的树叶还在滴水。林夏坐在靠窗的位置，桌上放着两杯咖啡。一杯热的，一杯已经凉了。”店员：“您好，需要帮您换一杯热的吗？”林夏：“不用了，谢谢。”旁白：“她说完，看了一眼手机。周砚迟到了二十六分钟。”旁白：“门口风铃响起时，林夏已经把那句‘以后别再联系了’在心里排练了三遍。”周砚：“对不起，我来晚了。”林夏：“你一直都很会来晚。”周砚：“今天是真的堵车。”林夏：“上次是加班，上上次是临时会议。周砚，我不是来听理由的。”旁白：“周砚站在桌边，手里拎着一个纸袋。袋口被雨打湿了一点。”周砚：“我知道。”林夏：“那就坐下，把话说完。”旁白：“他坐到她对面，却没有碰那杯已经冷掉的咖啡。”周砚：“你那天说，我从来没有把你放在第一位。”林夏：“难道不是吗？”周砚：“是。”旁白：“林夏抬眼看他。这个答案太干脆，反倒让她准备好的责备卡在喉咙里。”周砚：“我总觉得，先把工作做好，先把房贷攒够，先把生活稳定下来，我们就会好一点。”林夏：“可我等到的，是你一次又一次缺席。”周砚：“所以我今天不是来求你原谅。”林夏：“那你来干什么？”旁白：“周砚把那个纸袋推到她面前。”周砚：“还你东西。”旁白：“林夏打开纸袋。里面不是她落在他家的围巾，也不是钥匙。”旁白：“是一叠车票、电影票根，还有十几张外卖小票。”林夏：“这是什么？”周砚：“你说我什么都不记得。其实我记得，只是没说。”旁白：“林夏翻到最下面，看见一张已经褪色的便利贴。”旁白：“上面是她两年前写的字：如果以后吵架了，就去靠窗的位置和好。”林夏没有说话。周砚：“我知道，现在说这些有点晚。”林夏：“确实晚。”周砚：“嗯。”旁白：“窗外有车经过，水声轻轻溅起来。”周砚：“但我想把它们还给你。不是为了让你回头，是想告诉你，那些日子我没有忘。”林夏：“那你为什么不早点说？”周砚：“因为我一直以为，做比说重要。”林夏：“后来呢？”周砚：“后来我发现，只做不说，也会让人觉得自己不重要。”旁白：“林夏低头看着那张便利贴。纸角已经翘起来，字却还清楚。”林夏：“周砚，我不想再等一个总是迟到的人了。”周砚：“我知道。”林夏：“但这杯咖啡，我可以陪你喝完。”旁白：“周砚愣了一下，慢慢笑了。”周砚：“它已经凉了。”林夏：“那就换一杯热的。”旁白：“店员走过来收走冷咖啡。窗外的云散开一点，阳光落在靠窗的位置上。”结尾音效：杯子轻轻放下，门铃响起一声，背景音乐温柔收束。

▲上下滑动查看全文

人物的对白非常自然，能够让人感受到情绪的流动。雨声、卡片翻动的声音都在帮我们建立画面。声音不再是视频做完后最后贴上去的配件，而是可以从脚本阶段就参与创作。

复刻声音

豆包音频生成模型1.0 目前单次最多生成 2 分钟的音频。如果我们要创作长音频，或者做续集，怎么保证声音不串戏呢？我们可以上传参考音频，或者将历史生成的音频作为参考音频，单次最多支持3条，在提示词里指定某个角色使用某种音色。

比如，我们尝试复刻一下豆包的声线：

音乐开头由轻快爵士鼓点、短促贝斯和几下俏皮钢琴进入，背景有小剧场观众低声聊天、杯子轻碰、零星笑声。整体氛围松弛、热闹、都市夜场脱口秀感。演员开口后音乐迅速降低，只保留极轻的贝斯律动。观众笑声、起哄声和掌声可以自然出现，但不要盖过人声。脱口秀演员（青年女声，普通话，音调偏低，声音略沙哑，语速中等偏快，吐槽节奏强，有自然停顿和包袱停顿，不要播音腔，扮演者为）状态松弛、自嘲、像在小剧场和观众聊天一样说道：“我最近发现，AI 最大的影响不是替代工作，是让我妈终于确认了，我确实没什么用。”观众轻笑。脱口秀演员（认真铺垫）继续说道：“以前我妈遇到问题会喊我。手机坏了喊我，电视没声音喊我，微信找不到群喊我。现在不一样了，她先问 AI。”停顿半秒。脱口秀演员（语气突然低一点）说道：“问完 AI，再喊我。”观众笑。脱口秀演员（无奈）说道：“她说，AI 给了答案，但她不放心，想让我确认一下。我说妈，你这是把我从技现音乐开头由轻快爵士鼓点、短促贝斯和几下俏皮钢琴进入，背景有小剧场观众低声聊天、杯子轻碰、零星笑声。整体氛围松弛、热闹、都市夜场脱口秀感。演员开口后音乐迅速降低，只保留极轻的贝斯律动。观众笑声、起哄声和掌声可以自然出现，但不要盖过人声。脱口秀演员（青年女声，普通话，音调偏低，声音略沙哑，语速中等偏快，吐槽节奏强，有自然停顿和包袱停顿，不要播音腔，扮演者为 @音频1 ）状态松弛、自嘲、像在小剧场和观众聊天一样说道：“我最近发现，AI 最大的影响不是替代工作，是让我妈终于确认了，我确实没什么用。”观众轻笑。脱口秀演员（认真铺垫）继续说道：“以前我妈遇到问题会喊我。手机坏了喊我，电视没声音喊我，微信找不到群喊我。现在不一样了，她先问 AI。”停顿半秒。脱口秀演员（语气突然低一点）说道：“问完 AI，再喊我。”观众笑。脱口秀演员（无奈）说道：“她说，AI 给了答案，但她不放心，想让我确认一下。我说妈，你这是把我从技术支持，降级成了人工复核。”观众笑声增强。脱口秀演员（语速加快）说道：“最可怕的是，她现在会用 AI 写朋友圈。以前她朋友圈是：今天包饺子。现在是：岁月在面粉里沉淀，亲情在褶皱中发光。”停顿。脱口秀演员（压低声音）说道：“我爸看完问她，今天这饺子是能吃，还是要展览？”观众大笑。脱口秀演员（继续吐槽）说道：“我妈还特别认真地问我，这样发会不会太普通。我说不会，挺好的，就是不像你。她说哪里不像？我说你平时发朋友圈，标点符号都不放，突然亲情在褶皱中发光，亲戚会以为你被面粉夺舍了。”观众笑。

▲上下滑动查看全文

生成的音色与参考音色有较高的相似度，并且保留了脱口秀所需的自嘲与松弛感，包袱点的停顿和观众笑声的穿插非常自然。豆包音频生成模型1.0 不仅能克隆音色，还能代入更多的情绪，更像是用音色在完成一场表演。

一些分享

以前的 AI 配音，我们只是把文字喂给它；现在，我们需要在提示词里像导演一样给角色讲戏——写清楚角色年龄、音色特征、当下的情绪、动作气口以及背景里该有什么动静。给出的细节越具象，生成的效果往往越贴近预期。以往配音、配乐、找音效、对齐混音的繁琐工作流，现在可以通过一个合理的 Prompt 快速跑出第一版完整小样，效率提升显而易见。短剧、广告、课程、虚拟 IP 的生产速度会明显变快。目前，火山方舟体验中心已经开放了豆包音频生成模型1.0 的体验，普通用户可以获得 30 分钟的免费体验额度。未来还将接入剪映、番茄小说等日常工具，普通人做音频内容的门槛会继续下降。如果说过去 AI 配音解决的是有没有声音，那豆包语音模型1.0 开始解决的是声音有没有戏的问题。当然，作为 1.0 版本，豆包音频生成模型1.0在一些较为复杂的物理声场变化、多音、重音细节上，依然有可以雕琢和优化的空间。但豆包语音模型1.0展现出的端到端生成潜力，已经让我们看到了音频生产力变革的雏形。当图像、视频、文案和音频的 AI 工具链变得越来越完整，AI 配音也会成为提升内容体验的关键一环。

作者：K姐投稿邮箱：tougao@kseek.ai