遇到一个新问题,长AI视频的自动配乐。我的痛点是AI短片段里的音效和音乐是无法彻底分离的。拼起来后每一段自带的,风格迥异的音乐互相冲突,整个视频的配乐变得混乱不堪。
于是我开始琢磨,能不能用AI来解决这问题。我的第一步,是把网上能找到的Suno,Udio,Mureka的官方教程和提示语都通过Claude Code的NotebookLM Skill传到NotebookLM,这样我就有了一个随时可以调用的音乐创作知识库。

目前想要零背景自己手搓一个AI音乐提示语还是有一点难度的,比方说是专业音乐人写的提示语,
- 1. Techno曲风
-
2. 歌曲使用Dorian调式 - 3. 鼓组使用Dorian调式
- 4. Bass使用303音色且要出现Filter Envelope的段落
- 5. 人声需要带有Vocoder效果
- 6. 歌曲BPM为129
这是我用GPT写的,
可以说有耳朵的都能听出来的差距了,我写的人声有种赶着把词念完的感觉,很长一段时间我都以为是模型的问题,没想到是我写的提示语根本就是在为难模型。用Claude Code的原因是我可以直接把本地的AI视频传给Gemini3分析,文件大了还可以剪辑切片或者压缩之后再上传(用的这个skillmrgoonie/claudekit-skills),搞定后NotebookLM会输出详细的音乐风格描述。这是我想要二次配乐的影片,影片名字是Nefertiti Returns Home|娜芙蒂蒂回家了,想要表达的是埃及文物应该回到它的故乡了。
这是输出的音乐描述,尽可能还原画面的氛围感,以及适合用什么乐器,而不是详细描述画面里都有什么。

最后,我把这段描述喂给了昆仑万维新上线的Mureka V8模型。🔗mureka.cn
这段时间我印象深刻的还有吴爱花,一个纯AI的武打风MV,给我拉回去小时候在TVB看流星蝴蝶剑的感觉
我也想用Mureka V8把这个MV重新配成中文版听听看,会有什么不一样的。
在处理一些具有中国元素的音乐风格时,Mureka V8的理解力和表现力要比Suno V5更地道。在生成三分钟的完整曲目时,V8能一直保持一个比较统一的结构和逻辑,人声的质感和器乐的分离度也做得相当不错。以后开车想听什么DJ版,自己做就好了。AI音乐自成一个品类,当我的AI版Spotify!比方说daft punk版千年等一回法海版,
BTW,昆仑自己做的AI女团MV也很抓耳,
就在我以为这个工作流已经很顺畅的时候,我发现Mureka V8居然支持MCP,有四种玩法,纯音乐,带人声的音乐,生成歌词,以及根据歌词创作音乐。

有MCP就意味着我可以把它做成一个Skill,一个可以被其他程序自由调用的模块,制作新Skills的思路很简单,只需要保证Claude Code里面已经有skills-creator这个技能,然后把MCP对应的github页面链接也丢给Claude,

一条完全自动化的配乐工作流就这么诞生了。我只需要把视频丢进去,NoteBookLM就会自动分析画面,根据知识库的提示语技巧生成音乐描述,调用Mureka V8创作音乐,最后再把音乐和视频合成为一个成品。整个过程,我几乎不需要任何人工干预。这让我想起了音乐制作技术的发展史。最早给电影配乐,需要一个完整的交响乐团在银幕前同步演奏。后来有了录音技术,音乐可以被事先录制好再贴到影片里。再后来,穆格合成器的出现,改变了游戏规则。它把声音的各个元素做成了独立的模块,音乐家可以用跳线把这些模块以任意方式连接起来,创造出前所未有的声音。音乐创作,第一次变成了声音的工程设计。


我还做了一个在线版(15个按钮个个不一样),大家可以玩玩试试看,🔗aistudio.google.com/apps/drive/1n8Vz5KinlOwIvzyIL21JF_EuwxL-LieK?showPreview=true&showAssistant=true再往后,数字音频工作站把模块化思想带入了个人电脑。而现在,能把AI音乐做成Skills,在我看来,就是音乐创作工具的又一次进化。每一个强大的AI模型,都在变成一个标准的模块,一个可以通过Skill调用的功能单元。我们就像是拿到了新一代的跳线和机架,可以把这些能力各异的AI模块,自由地连接,编排,构建一个只属于我们自己的工具链。PS,不用学了,GPT能控制,配乐,不用学了,Mureka V8能做,编程,也不学了,Clawdbot能做,掌握单个软件的操作技巧变成了时间花费最少的,思考如何将各种强大的AI能力,像指挥一个乐团一样,编排组织在一起,成了我们当下要去做的事。
@ 作者 / 卡尔
