今天是火山Force原动力大会,我在现场。

这次他们也掏了很多有意思的新货出来,但我觉得最炸的,还是他们的新视频模型,Seedance 1.5 Pro。因为这次的更新,真的做到了影视级别的音画同步,而且中文能力和方言能力是目前所有模型里的独一档。

语音生成能力这点在他们的技术报告里也有体现。左边是视频生成能力,右边是语音生成能力。绿色的就是Seedance新模型,在语音生成这一块可以说是遥遥领先。。。

模型昨天已经上线了,可以直接在豆包,即梦或者火山方舟上玩起来。豆包是在视频生成或者照片动起来这一栏里选1.5 Pro模型。

即梦是在生成视频里选3.5 Pro,也是基于Seedance 1.5 Pro的能力。目前3.5 Pro支持文生图,单参考和首尾帧,智能多帧和主体参考还要再等等,不过现在这些其实已经很够用了。

还有火山方舟,网址在此:https://exp.volcengine.com/ark/vision?launch=seedance京剧玩法,名画玩法什么的都可以在方舟上体验。

API也在路上了,现在就可以预约。Seedance 1.5 Pro的能力维度呢,我觉得可以分成这么几大块,复杂场景的音画同步能力、中文和方言内容输出能力、情感表现力。我们一个一个说。
最基本也最重要的,就是主体说话时的唇形一致性,我们的第一个case也从这个测起。提示词:让这个猴子在摄影棚里唱一段rap,猴子对着镜头说唱,镜头跟随猴子的动作运镜,雷鬼+tropical风格,浑厚黑人嗓音,从口哨声引入,第二秒开始加入强节奏的鼓点,第三秒后加入有节奏感的rap词,语速100BPM,同步配合鼓点:As Moko the monkey, skankin’ in the sun, Swingin’ through the palm trees, life’s just for fun,Big smile,no fear— One love from the jungle, yeah I’m right here!
如上,对口型对的很完美,呲着一口大白牙,非常引人瞩目。非要挑点什么问题的话就是,rap的节奏感还有进步的空间。。。这里要说一个小小小技巧,如果想在这个视频里说什么词,一定要在提示词里给模型规定好。包括你想要的音效节奏啥的,也和它说清楚,总之别让它太自由发挥,不然效果你懂的。然后再看一个多人对话场景,提示词如下:

一来一回总共四句对话,只要写清楚对话内容和顺序,就能准确地把台词分给每一个人。
唯一美中不足的是,它暂时还不理解罐头笑声是啥意思,当我想要在视频结尾加一段罐头笑声的时候,它给我生成了真正的,罐头。无伤大雅。

除了对口型同步之外,Seedance 1.5 Pro还能做到多分镜音画同步。而且因为它最高支持秒12秒的视频生成,所以你甚至可以直接用参考图+文生分镜,roll一个小小的广告短片。这,是我给它的提示词。

而这,是它给我的视频,声音效果和细节的准确性都非常在线,几乎已经可以说是一个80%的成品了。
毫不夸张地说,能省下至少一半做片子的时间。或者,也可以让它直接完成一段12秒的剧情。我让瑞克和莫蒂俩人致敬了一把无间道的经典天台片段。提示词长这样:人物声音设定- Morty(左):声音偏高、发颤,语速不稳,带明显犹豫与恐惧,气息短,像硬挤出来的勇气。 Rick(右):低沉沙哑,语速快而不耐烦,带嘲讽,尾音下压,充满控制感。 Shot 1:中景 天台。Morty僵直站立,直视Rick。 Morty: “I wanna be a good person.” Shot 2:特写 Rick半侧脸近景。 Rick(冷笑): “Oh yeah? go tell the cops, Morty.” Shot 3:快切 a 大全景:Rick举起手枪 b 大特写:枪口贴近Morty额头,无台词。 Shot 4:大全景,Rick持枪抵住Morty头顶,镜头环绕,风声呼啸。
整个过程中,无论是台词还是音效,匹配的都很恰到好处。而且镜头切换和运镜也有点东西,很酷。
第二个,就是中文和方言的输出能力。其实我测下来发现,1.5 Pro的多语言能力很拿得出手,英语日语韩语西语都能无障碍输出。具体效果可以看下面这个合集:毛利小五郎用各种语言,在线抢柯南台词,真相只有一个。
但我要重点说的还不是多语言能力,因为我觉得,中文和方言能力才是它最强的技能点。在所有模型中,seedance 1.5pro的方言能力是断档的强。它是我见过的第一个,说粤语说得有点韵味的模型。
即使还做不到最地道的程度,但氛围感已经出来了。。。除了粤语之外,四川话,上海话,东北话,台湾腔,也都能自如切换。所以,你就可以让上海人和北京人用自己的方言吵架,也可以在东北话和台湾腔之间无缝切换。考虑到公众号里最多只能放十条视频,我依然是做了个方言合集,大家可以点进来感受一下。
怎么样,是不是还挺有那味儿的。说不同语言跟方言这里也有一个小技巧,就是,要给它原版语言或者方言的提示词,比如英文版的真相只有一个就得跟它说,There’s only one truth,说粤语的话,就要这样写:呢个世界上有一种雀係冇脚嘅。不会粤语也没关系,直接和ChatGPT帮你翻译就行,就像这样。

Seedance 1.5 Pro这次还有一个大幅度提升的能力,就是情感表现力。哪怕是同一句台词,规定不同的情境之后,也能说出完全不一样的感觉。提示词非常简单,就一句话。

这个表演合集,大家也可以品鉴一下。
我自己看这些表演的时候,有好几个瞬间都感觉,我是不是正在看什么豪门真假千金的短剧片段。因为它真的能演出来嘴角颤抖,一声冷哼,皮笑肉不笑,眼睛叽里咕噜转,倒吸一口凉气,这些短剧中熟悉而微妙的细节。而且声线也会跟着不同的情绪变化,很有代入感。就感觉,Seedance 1.5 Pro已经可以进军短剧界了。。。而且更强的是,哪怕我只是给它一句话,不加别的提示,它也能够根据这句话的内容,给我配一段合适的表演,直接一条过。

就是,现实中的演员都没这么省心好吧。。。
而且这个情感表现力不只是体现在台词上,而是包括配乐,音效,运镜,各种能力和细节综合起来,最终实现你想要的效果。比如这个第一视角驾驶战斗机的片段,所有的声画元素都综合起来,就是一段效果非常丰富,非常有沉浸感的视频。
之前要在剪辑软件里倒腾一大通,现在一键直出。没什么可说的,Seedance NB。。。
这次会上,他们还提到了一个很有意思的能力,没上线,但我非常期待,就是draft样片。什么意思呢,就是在成片之前,先给你一个较低分辨率的draft样片,让你可以锁定这个画面中的关键元素,等你修改完确认没问题之后,它再帮你生成高清晰度的成片。也就是,减少抽卡次数,精准锁定效果,实在是一个对于钱包和时间都非常友好的功能。快上吧孩子已经等不及了。。。最后,来总结一下这次的Seedance 1.5 Pro更新。虽然最近视频模型集体从默片时代跨入有声时代,可以说是前狼后虎,但在这种局面之下,我觉得,1.5 Pro依然很能打。它的优势,除了能够满足方言这种更加细粒度和个性化的需求之外,更重要的是,真正让声画的结合做到了1+1大于2的效果。我们都说,电影是声画的艺术。这次的更新,就让画面,台词,音效,节奏,情绪,都能很好地融合在一个视频里,输出一个广告级,甚至是影视级别的成品。这意味着,生成出来的不再是只有画面加上简单音效的半成品,而是可以直接上剪辑台的素材。这对于AI视频的工业化,是一个巨大的提升。再往上一层,甚至对于AI视频的创作方式和理念来说,也是一个巨大的提升。以后的创作,就不再只是考虑画面如何了,声音也会一起纳入考虑的范畴。就会出现新的提示词方式、新的视频形态、新的制作流程,进而引发,新的生产力变革。新的风暴已经出现。而我真的,非常期待。以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~谢谢你看我的文章,我们,下次再见。>/ 作者:卡兹克、水杉>
