《10分钟精通可灵 O1 和可灵 2.6》

—— 连续五天的更新之后，我们终于看清了可灵的“真身”。过去一周，我的首页被可灵刷屏。不是一条爆款，而是五天连环炸。O1 上线、2.6 音画同出、数字人 2.0 全量开放……每一天打开手机，都更新了新东西。你可能也刷到过那些标题：“一句话改视频”、“视频版 Nano Banana Pro”、“全流程语义控制”…但如果你没有真正上手过，你大概率不知道 ——可灵这波更新，已经悄悄把视频创作换了操作系统。今天这篇文章，我希望你读完会有一种感觉：啊，原来我真的能只用自然语言，把视频做好。一、国内第一个统一多模态视频编辑模型可灵官方给 O1 的定义是 “统一多模态视频模型”。听起来有点像科研论文的标题。但如果用创作者能理解的话来说，它更像：把 “P 图的快感”，搬进了视频里。

你丢一张图，它懂。你丢一个视频，它也懂。你丢七八张角色照片，它开始给你构建“这个人”。你一句话说想删路人、换季节、加道具，它都能做到。更关键的是所有这些，不再是不同工具、不同模型，各干各的，而是放在同一个大脑里理解 —— 这就是 “统一模型” 的真正意义。我第一次意识到 O1 的恐怖，是在把一段街景视频丢进去的时候。

我只是随口说了一句：“把画面里两边的路人删掉，只留下主角一个人”。

虽然最后还是有个别路人，但是整体效果已经好多了。要知道往常这种场景主要是截关键帧出来去改图片然后再用首尾帧，每次生成出来好的视频素材要修改非常难。

以前这种操作，就算用AE弄遮罩、跟踪路径、调融合，即使熟练至少也要十几分钟。但现在，它就是一句话的事。再比如你拍了一段 vlog，结果衣服颜色不对。

输入提示词后，它照做，不影响背景、不改变构图。这种“只改你想改的地方”的能力，对创作者太珍贵了。

甚至你可以更大胆一点，比如：

“把夏天改成冬天。” “让地面裂开。” “把背景换成南京街头。”

我们以前把这种东西叫后期特效，可灵把它变成了日常操作。

参考动作这件事：AI 正在悄悄接管动作捕捉如果你做漫剧、动画、IP 内容，你一定懂这种痛：动作迁移、打斗、舞蹈、起跑……靠自己做很难，靠人工捕捉太贵。O1 的解法很直接：你给它一个动作视频，它把动作迁移到你的角色上。真人舞蹈 → 二次元角色跳舞，运动员冲刺 → 你的品牌 IP 也能冲刺，你自己挥手 → 你的虚拟人也能挥手，动作的力量感、节奏感，都能跟原视频对上。

这是那种一旦用过，就回不去的能力。在跳舞的案例中，只需要这么一个提示词，就能让疯狂动物城里面的角色跟女团一样跳舞，非常搞笑哈哈哈。

还有更多的玩法，就是太搞了，没好意思弄，大家可以自己去让身边的人来跳舞哈哈。

三个主体可以，那一个主体也可以，不过我们上点难度，弄了一个有特效的跳舞视频，看他能不能够完整的迁移进来。

结果发现，荧光的特效也一起迁移过来了，边缘特效可能因为没有指定，所以没有迁移，整体效果还是非常惊艳的。

多视角主体：第一次感到“AI 真的懂同一个人”你知道 AI 视频最让人崩溃的是什么吗？同一个角色，一换镜头，就像换了一个人。可灵 O1 的多视角主体是我这周最喜欢的功能之一。只要你给它 3～7 张不同角度的照片，它真的能在镜头运动、景别变化的时候，让“这个人”保持同一个人。有一些场景我直接给一张图片，也能有较好的视角切换效果。过肩镜头不论过去还是现在，都是很难出的。效果呈现的好坏跟原图本身有很大的关系。香蕉2在这个case上抽卡率较高，且很容易更改画风。《10分钟精通可灵 O1 和可灵 2.6》 o1的表现就比较稳定，也理解了两个人物之间是并排坐在一起的位置关系。

我还用O1测试了一些非常刁钻的角度，往常这种底视图和俯视图很难做出来，现在也基本上就是一句话的事情。

以及更多的影视镜头表达，在可灵O1里面也能得到较好的效果。

你终于可以让一个角色走进咖啡馆，再切换到侧脸特写，再从背后拍他推门出去……而不会突然变脸、变性、变种。对于在做 AI 漫剧的团队来说，这个能力不是“好”，是“必须”。镜头延展：补镜头的噩梦，被一句话终结了如果你做视频，你一定遇过这种时刻：开头太短；结尾断得太急；想多一点过渡镜头可是素材不够。以前解决方式是 —— 很麻烦。现在你只需要说：

“从这张图延展 5 秒。”

它就真的会生成一个自然衔接的镜头，像是拍摄时本来就多拍了这几秒一样。剪辑师会爱死这种能力。二、可灵2.6：视频终于不是哑巴了以前的 AI 视频最大的问题就是 —— 静音。你得自己去配音、找音效、调背景声，时间成本极高。可灵 2.6 做到的是：音画同出。一次性给你画面 + 说话声 + 环境声。一个人走在路上，你能听到脚步声；在咖啡馆，你能听到环境噪音；角色说话也能同步生成语音，甚至还能唱Rap。提示词如下：

女孩对着镜头，唱rap：“我要带着我的旗帜我的奖章带上我的姐妹们在山顶上面摆造型！我要比你看到过的听到过的那些所有花里胡哨加在一起还要顶！“ 语速飞快，手持镜头。

这对内容创作者意味着什么？意味着你的视频，不再需要“后期流程”；意味着你能把 30 分钟的工作，压到 3 分钟。你要做讲解号？搞定。你要做剧情短视频？搞定。你要做产品介绍？一句话就成片。三、数字人 2.0：五分钟视频，不用真人出镜这次更新还有一个被很多人忽略的东西：数字人 2.0 全量开放。

一张图、一个文本、一句话描述角色表现。最长能生成5 分钟讲解类视频。表情自然、口型跟得上、动作比以前协调很多。你以前需要灯光、相机、发型、妆面、背稿、录制、剪辑……现在你只需要一句话。对于电商讲解、知识类账号、品牌宣传、企业培训，这几乎是降维打击。可灵真正的价值：不是让你变强，而是让你“无门槛创作”这几天我在思考一件事：可灵到底改变了什么？它不是把创作者变得更专业。它是把视频创作的“门槛”打碎了。以前你要做一个 10 秒小短片，得经历：写分镜 → 找素材 → 拍 → 选镜头 → 合成 → 调色 → 配音 → 音效 → 导出现在你只需要：一句话。当工具从“专业工具”变成“自然语言界面”的那一刻，整个行业的创作模式就不一样了。四、可灵目前短板在大家狂吹的同时，有一些现实问题必须讲明白。1、它做不到“指定声音对口型”这里要特别强调一点：可灵 2.6 做的是声画同步直出，不是传统意义上的“二次对口型”。很多数字人产品的逻辑是：先有一条音频，再把嘴型往上贴，这种纯对口型在真人短剧上多少都会有点 AI 感；而 2.6 是声音和画面一起生成，自然度和整体协调性其实要好得多。真正的问题在于——它目前还不支持“我先上传一条音频，你按这条声音来做声画同步”。也就是说，你没法保证一个角色在多条视频里，永远用同一副“嗓子”。这是现在 2.6 最大的短板。如果你是做严肃剧情、真人短剧、固定角色声线这类需求，现阶段更稳妥的方案还是：用 GPT-SoVITS、FishSpeech、IndexTTS 2.0 这一类专业 TTS。或者在通义万相 2.5 里先上传指定音频，拿到你真正想要的声音，再用万相的声画同步把真人短剧跑出来——在这一档场景里，万相 2.5 目前还是独一档的存在。

声音是另一条生产线，可灵还没吃透。2、长剧情依旧不稳一句话能搞定 3～1哦、0 秒镜头；但如果你要求它一段 1 分钟以上的连续剧情，三个人以上的复杂互动动作 + 走位 + 情绪 + 镜头语言全部精准，它会崩。镜头越长，越容易穿模、不一致、逻辑出问题。所以现在最稳的方案依旧是短镜头拆拍式生成 → 剪辑拼接 → 后期微调O1 没法直接生成“连续长剧情”的最终成片。3、“生成 = 抽卡”仍然存在你会遇到：第一次很好，第三次暴走、背景突然变形、角色的手多出一截或者没对上口型……这不是可灵的问题，是“视频生成的时代问题”。截止目前的AI视频模型，大多都存在这样的问题。
未来最稳的工作流不是“可灵一条龙”，而是如图中内容。

五、结语：现在的可灵，很值得你立刻用一次不一定要立刻做一个完整作品。甚至不需要复杂提示词。只需要找一段旧视频。随便说一句话。“让这个天空变成黄昏。”、“把这段路拍成雨夜。”、“把我衣服换掉。”你会突然意识到：视频创作，它真的变简单了。拍摄的时代不会消失，但正在重写。剪辑不会失业，但正在重构。而“自然语言做视频”，正在成为主流。这是个好时代。只要你愿意动手，哪怕 10 分钟。

感谢你看到最后。如果你想学AI却无从下手，我们西羊石团队沉淀了一份超过50万字的开源知识库，里面涵盖了AI视频、AI智能体、AI编程、AI音乐等各领域的学习资料，免费供大家阅读和学习，不断保持更新。链接：🔗
https://www.feishu.cn/community/article?id=7566616559762800641详细介绍大家阅读这篇介绍文章：👇一份30万字的AI心得，我们想毫无保留地分享给你

作者 | 阿泷小石学长

编辑 | 小石学长