
这两天我们在 LibTV 里把 Seedance 2.0 来回测了几轮。
真人、广告、九宫格、Skill 调用都过了一遍,越测越觉得,这次最该看的已经不只是模型强不强了。我先说结论。Seedance 2.0 放进 LibTV 之后,真人、主体、多视角、合规校验、Skill 调用这些能力,终于被收拢到了一条线上。如果你只是想看一条惊艳 case,那你会觉得它很强,可以移步公众号文章:字节Seedance2.0 更新,AI 变天了!。如果你真想做账号、做短剧、做广告、做批量内容,你会更在意它现在终于像个能干活的工具了。

现在能做出一条好看片子的模型和平台,已经不少了。更磨人的地方,是你今天做好的人物、参考图和节点,明天还能不能接着用。这次我盯的,就是这一点。整体流程是什么视频节点里现在已经能直接调用 Seedance 2.0 了,而且是多模型都在同一个画布里工作。这个细节看起来普通,真做内容的人会知道它很重要。因为以前最烦的,很多时候不是模型少,问题出在平台切来切去,素材找来找去,结果跑到一半自己都不知道上一步做了什么。现在 LibTV 的这个思路会顺很多。和即梦一样,多条视频可以一起跑,不用再等几个小时,速度体感上快了不少。

而且很多动作都能在画布里面直接做完,不用频繁切换平台,这一点确实方便。

还有个我很想单独拎出来讲的点,就是它把合规素材校验往前提了。
这个功能非常实用。它会在你生成视频之前,先帮你判断图片能不能用于 Seedance 2.0,少很多等半天再报错的返工。

校验通过之后,就能直接用于仿真人视频生成。

使用的时候,就在这里选仿真人图片即可。

同一张图,你用不用这个审核功能,区别真的很大。我这次有一张图没走仿真人审核,直接传进去,结果视频生成当场报错。

这类功能不怎么显眼,但特别像真正的工作流能力。因为它解决的是返工成本。它的真人能力AI 视频里最容易露出马脚的地方,一直都是真人。只要一碰真人,问题很容易暴露。多镜头会不会像换了演员,近景到底能不能看。所以这次我最先测的,不是风景,也不是特效,还是真人。说实话,这一轮看下来,真人这块确实挺能打。生成效果很强,模型自由发挥的空间也够,嘴型和情绪都比较到位,运镜还会跟着 AI 演员的情绪去配合。如果只是拿它跑一个情绪戏、氛围戏、变装类镜头,已经很容易给人一种这玩意能直接商用的感觉。
除了比较浮夸的演技,文戏动作和镜头表现力也强。像这个回头镜头,就很有故事感,一眼万年。
图像人物一致性这块,我这次搭配 Lib Nano2 和 Lib Nano Pro 去做,效果至少不会差得太离谱。
视频这边再接 Seedance 2.0 的全能参考,整体看下来,连续镜头的一致性感受是在线的。

得益于这种画布结构,要用 Seedance 2.0 的全能参考,直接连节点就可以了,操作上会丝滑很多。

多个角色的一致性也还不错。
广告这块非常惊艳,一些电商中小卖家也能做出堪比大品牌的产品宣传片。原来这些可都是需要用 c4d 这些三维建模去做的,一秒大几百几千很正常,现在成本价 1 秒 1 块钱,市场价估计成交价会是原来的一半甚至只有原来的十分之一,传统视频手搓要成为非遗手艺了。
对于一些公司或者个人,做短视频账号更加容易了,各种品类也可以,像这个案例,就可以用于服装带货,如果你想做时尚博主,用它轻松拍出时尚大片。

你把正脸、侧脸、半侧脸、抬头、低头这些信息都补进去,模型对这个人会有更完整的理解。这一点对数字人、连续角色短剧、变装视频、多镜头口播、人设型账号,价值都很大。而且现在在节点里打个 /,就能直接调用多机位九宫格这些能力,工作流非常丝滑。

当然,九宫格也很吃素材质量。照片风格不统一,光线差异太大,妆造差异太大,或者有的图过度美颜,有的图又特别纪实,最后都容易把主体做散。所以这个功能要想用好,前面的参考图准备本身就是门槛。有能给 Agent 用的 Skill了我们上一篇文章也提到过,LibTV 现在已经不只是给人手动点点点用了。
像 Codex、OpenClaw 这些工具,只要把 Access key 配好,把 skill 装上,很多能力都能直接调起来。

比如我直接跟 Codex 说,把这个 skill 安装好。

接下来直接对话,就能生成视频。

如果还要继续人工修改,再回到画布里调就行。

直接通过对话就生成了这个视频。
很多人会把这件事理解成AI 帮我点按钮。我觉得值钱的地方远不止这个。它真正往前优化的是,内容制作开始有机会被模板化、自动化、批量化。你可以让 Agent 先拆分镜,再给每个镜头出 prompt,再逐个调用生成,最后把结果回传回来。同一个人物换 10 套服装做变装号,同一个产品批量出 10 条广告片,同一套短剧角色连续出不同镜头,这些事现在都已经能更方便的落地了。说得再直白一点。以后很多内容团队比的,可能已经不是谁人多,而是谁更早把这套流程跑通了。别再幻想一句话出成片这一段我反而特别想展开说。因为很多人看到模型强了,平台厉害了,就会自动把预期拉到一句话出完整短片。到今天为止,这个想象还是太乐观。30 秒到 1 分钟的小短片,真正关键的,还是分镜拆解、主体稳定、后期拼接。最稳的做法,我建议还是这五步:1. 先定故事骨架,用一句话说清楚这条片子讲什么。2. 再拆成 4 到 8 个镜头,每个镜头控制在 3 到 8 秒。3. 每个镜头单独跑,先看镜头稳不稳,再看效果够不够亮眼。4. 统一主体、服装、光线和镜头语言,别让片子前后像两个人拍的。5. 最后再做剪辑拼接,把转场、音乐、字幕和节奏点补上。这套做法听起来有点笨,但真到做账号视频、做商单交付的时候,它反而最稳定可控。我最后的判断LibTV 里面现在还有很多功能可以继续往下测,比如多机位九宫格、25 宫格连续分镜、电影级光影校正、角色三视图这些。

我个人觉得这个大师级光影功能特别好用,真有点达芬奇调色的感觉。


我现在更在意的,已经不是它还能不能再跑出一条更炸裂的 demo 了。我更在意的是,下次团队真要赶项目、赶账号内容更新、赶广告交付的时候,我会不会第一时间用它做好。至少这次测完,LibTV 已经到了这个位置。它还远没到什么终局。多人复杂剧情、长片衔接、长期稳定性,这些都还得继续看。但它已经不只是一个让我顺手试试的新入口了。它开始像一个会被留在创作者手上的东西。也欢迎大家来群里交流AI 视频相关内容,看看大家用libtv 效果怎么样。

另外需要

推荐阅读
