
今天接了一场一小时的专家咨询,对方的诉求很典型。他们是券商基金公司,想做一份严肃的调研,搞清楚可灵当前的能力边界,和海螺、即梦、Vidu这些国内选手相比差在哪。我把他们和Runway、Sora、Veo这些海外路线放在同一张图里之后,以更加综合的角度来分析这些模型。

我开场先简单交代了一下我们是谁。西羊石是一家专注AI视频的创业公司,我们做过不少一线交付,也做知识付费和线下分享。之前服务过中国平安、兴业证券这类机构,很多工作方式其实和他们更接近,大家都需要把信息拆到能落地的颗粒度。

我习惯用案例带着走,因为只聊功能,体感会飘。可灵这类工具,最容易被误读的地方在于,官方示例永远漂亮。
普通用户的第一手体验经常更真实,也更残酷。于是我从我们最近长期深度使用可灵的几块能力讲起,按时间线带他们走了一遍,同时也把我们做交付时的真实用法和成本感受摊开一步一步讲,更多视频案例参考可以移步:《10分钟精通可灵 O1 和 可灵 2.6》。我们从2024年6月左右开始用可灵的内测版本,那会儿刚好拿它去做第一个商单,属于比较早的一批重度用户。一路用下来,我对可灵的判断非常清晰,它让人觉得真正跨了一步的地方,集中在三个方向:视频开始有编辑的味道、音画开始能够一起出、动作开始能够更精细地控。
先说视频编辑。传统AI视频的痛点很朴素,镜头生成完就定型了。人物朝左走了,下一次想让他朝右走,你往往只能重来。画面里多了几个路人,你想删掉也很难。很多时候只能反复抽卡,直到抽出一个勉强能用的版本。可灵O1出来之后,我第一次感受到视频素材开始像可加工的资产。举个我们现场展示的例子,我把一个已经生成好的镜头引用进去,让它把画面里除主角之外的角色尽量清掉,只留下主角。

它做不到百分百听话,偶尔仍会残留,但对比过去那种只能重做的状态,这一步的意义非常大。你可以把历史素材二次加工,把一些已经不错的镜头救回来,减少纯抽卡的浪费。类似换衣服这类需求也更实用,我们有虚拟IP形象,原来的一套服装想换成另一套,用编辑思路去做就顺很多。

再说音画同步。可灵2.6之后,输入旁白内容,指定音色,再生成视频,它能把声音和口型一起带出来。我们现场演示了一个偏商业级别的MV场景,塞了一段语速很快的rap进去,目的就是测试它在高密度台词里的同步能力。
体感上,它确实能把很多过去需要后期补的流程省掉,尤其是口播类内容,或者你本来就要做强表达的镜头,这一步会明显提效。当然,它仍然要抽卡,音色也会有波动,成功率不会变成神话。我们做交付时依旧会把镜头拆短,把10秒拆成两段5秒,或者更常见地控制在2到5秒一个分镜。让模型直接理解长时间连续动作,难度太高,拆短更稳,也更符合国内视频制作的习惯。
第三块是动作控制。这个能力最近之所以出圈,是因为它真的在解决过去最难控的变量——动作。以前我们做品牌广告片,想让主体稳定奔跑,动作连贯,角色不换脸不变形,这在早期模型阶段几乎做不到。现在用可灵的动作控制玩法,你用一段参考动作视频,再配上角色图,构图尽量接近,背景尽量简单且静止,就能得到很强的动作拟合效果。我们现场给他们看了一个典型用法,互联网上找舞蹈视频,用不同角色图去套动作,提示词甚至可以非常少。
做复杂运动镜头时,我们更倾向用视频生视频,让角色去完成动作,稳定性会更好。这个方向更接近底层能力,和简单做一个应用壳不是一回事,它需要长周期的技术积累。
讲完这三块能力,我补了一句他们最关心的现实问题:成本和出片率。因为做投资调研,最后一定绕不开算账。我们真实用下来,随着模型的迭代,可灵的综合抽卡率并没有突然变得极低。对我们来说,做出一个可发布的一般水准分镜,常见情况依旧要3到5次。海螺在很多场景里会更稳一些,Vidu在某些方向的出卡率也很高。可灵的优势往往不在于省抽卡,而在于你需要的那类镜头,它能给到更强的控制和更好的质感。不同画风差异很大,写实中近景它可能一次就出来,动漫画风反而容易抽得更久,所以讨论抽卡率不能脱离场景。再往下聊,他们关心我们平时怎么选模型。我给的答案也很直接,我们几乎不会只用一个模型。团队交付要稳定,最后都会形成主力模型加其他模型的组合。可灵我们用得多,海螺和Vidu也常用。原因很现实。第一是能力侧的优势互补。微度更偏动漫方向和参考生视频,海螺更擅长打斗和特效,可灵更擅长电影感、写实质感和高清细节。第二是商业套餐影响很大。我们公司会续旗舰类订阅,海螺有适合工作室的套餐,多人共用一个账号对团队很友好。可灵目前的结构更偏积分逻辑,遇到高频制作时,成本感受会更明显。

第三是制作方式分两套。做精品短片,我们更常用网页端平台,一各个分镜把控。做相对标准化的漫剧工作流,我们会用第三方Agent去调用API跑批量,把效率拉满。然后我把话题从模型能力抬到产品能力和系统能力,因为他们本质上想判断可灵未来会站在什么位置。这里我提到了可灵的灵动画布。

它的价值在于项目级的资产管理和可视化流程。我们做两分钟左右的视频,四五十个分镜是常态,乘上抽卡次数,很容易变成几百个视频素材。把这些素材丢在同一个生成页里,项目之间没有隔离,复盘和复用都很痛苦。画布的意义在于你可以为每个项目开一个空间,把角色、场景、分镜、视频节点连起来,素材引用更顺,整体结构更直观。对高频制作团队来说,这种产品形态的价值不在于炫酷,而在于管理成本和返工成本。它现在也有局限,自动化还不够强。我们最想要的那种从完整分镜脚本出发一键跑通,仍然需要更长时间的产品迭代。

这也自然引出了投资调研里最关键的分歧点。可灵未来要成为默认入口,难度不在于把单个镜头做得更像真人,难度在于把项目级交付吃下来。工作流的自动化,版本管理,资产库,多模型编排,和Agent生态的结合,这些能力决定它是成为创作者天天打开的入口,还是成为一个被路由的后端模型API。面向小白的工具更容易把模型隐藏掉,让用户只感受到省心。面向专业团队的工具,用户反而更关注你调用了哪个模型,哪个版本,哪个参数更稳。这两类用户的产品诉求完全不同。
他们问我模型差异是变大还是变小,我给的结论是两条同时成立。基本能力层面的差距在缩小,因为大家都会补齐视频生成、参考、音画这些基础模块。细分能力的差距在变大,尤其是视频编辑、动作控制、多镜头一致性这类更难的点,会形成时间差。谁能在某些场景做到更稳更可控,谁就会被专业团队反复使用,形成粘性。他们问市场空间,我现场的表达更偏务实。可灵面对的市场,不只是一群创作者做玩具。短视频创作、广告营销、品牌内容、教育培训、企业宣传、媒体内容生产都在快速被AI视频重构。只要生成和编辑的成本继续下降,能把更多流程前置,市场会持续扩张。对专业团队来说,是否有更适合工作室的订阅套餐,同样会影响它吃到多少市场份额。你可以把这看成产品策略而非模型策略。

他们问价格竞争。我也没有去猜谁会打到什么程度,因为促销和套餐会变。我们只从用户行为看结果。只要某个平台给出更稳定的出片率,或者更适合团队的订阅套餐,工作室就会迁移,至少会把它当成高频使用工具。平台之间的竞争,最后会体现在创作者的默认打开顺序上,AI大爆发的时代,37天,是一个模型的寿命,用户本身不会有太多的忠诚性粘性可言。他们问性能溢出会不会出现。我更倾向于把这个问题翻译成用户是否还愿意为更好的控制能力付费。普通用户可能很快会觉得差不多够用了。商业交付永远不会觉得够用,因为客户的审美和要求会跟着抬高。你只要做过交付就会知道,最贵的永远不是生成本身,最贵的是返工,是不可控,是临门一脚翻车。所以可控性、可编辑性、复现能力,很难出现真正意义上的溢出。这场咨询最后我给他们留了一个简单的抓手,也适合所有想认真研究可灵的人。少写观感,多写指标。去访谈工作室和营销团队,问他们成片率、返工率、交付时间。问他们最值钱的能力排序。问他们愿意为省时多付多少,愿意为可控多付多少。再去拆平台的产品路径,看它能不能形成生成到投放到复盘再生成的闭环。模型的热闹会过去,能跑通闭环的系统会留下。我们团队接下来也会持续跟进可灵的更新,同时也会把海螺、即梦、Vidu以及海外的Runway、Sora、Veo放在同一套交付视角里做长期对照。谁能把视频从一次性生成物,推进成可管理、可复现、可规模交付的生产资料,能更稳定地缩短用户更多的交付时间,谁就更可能在2026吃到更大的那块蛋糕。最后大家如果想去更加系统的学习可灵,他们官方文档就说的比较清楚了,需要的时候可以去查阅。

我们下周会有连续5天的AI视频公开课,分享AI视频以及相关AI赛道,2026有哪些红利,以及我们自身去年这一年的AI创业经验分享。欢迎感兴趣的小伙伴扫码进群听分享~


推荐阅读
