🔗 试玩demohttps://realtime.pixverse.ai/这个过程最头皮发麻的地方在于,世界是连续的。不是重新生成了一个新视频,而是在刚刚那个世界的基础上,实时地为林克装备了一把武器。这感觉就像你在玩游戏时,突然拥有了开发者权限,可以随时用语言为游戏增加新的元素。这段演示里还有一个细节,当指令变得复杂,比如让怪物追赶林克时,怪物的行为会有些笨拙。

这种不完美反而证明了它不是一段预设好生成好拼接好的AI动画,而是一个真的拥有初步物理和行为逻辑的世界。可能它的清晰度还不太完美,但仔细想想从360p的AI视频画质到稳定低价的1080p,我们只用了18个月。所以我根本不担心这个问题,我关心的是它在根据我的指令,实时地进行演算。这种可被观察的演算过程,正是它与传统AI视频最大的不同。修的都不是同一个体系,而且从他们技术报告上看,这个视频能自己无限期演下去。

🔗 技术报告https://pixverse.ai/en/blog/pixverse-r1-next-generation-real-time-world-modelR1叫世界模型,3D模型也叫世界模型,Banana2也叫世界模型,用人话来说,世界知识就是给生成内容装上一个能自洽的底层引擎,让它不止能把画面长得像,还得把因果,物理,常识都对上号。经得起推敲的,不会穿帮的,能按照你模糊的提示语补充细节的。
打开Demo,打开麦克风,就这样一边说话,R1一边就把剧情全出了。

声画一体的Sora和Veo都很强大,创作流程基本上也都是许愿-等待-开奖。当我写下一段几百字的咒语,点击生成,然后就是盯着进度条等。几分钟,甚至十几分钟后,才能打开那个盲盒。运气好,开出神作;运气不好,人物崩了,物理飞了,只能自认倒霉,回头再去改那段天知道哪里不对的咒语,然后开始新一轮的抽卡。Veo3.1还可以用json约束一下,但很多别的视频模型还是要慢慢磨自然语言。

Pixverse这个就给我一个很新的感受,它的整个过程其实有点像是导演在现场指挥演员。你可以设想一下,在一个电视剧或电影的片场,演员在表演时,导演有时会在画外音中进行一些实时指导,告诉演员如何去演、做哪些动作,或者表情哪里不到位。这样的实时指导就非常像我现在用PixVerse R1的感觉,通过打字告诉视频,我需要接下来的这个人物去进行怎样的动作,或者进入到什么样的场景。这种交互体验真的蛮能圆我导演梦的。比如这个太空驾驶的场景,
一连串的文字像写剧本一样,实时驾驶着飞船逃离地球、飞向月球、遭遇神秘光线、最后被巨大的土星所震撼。我感觉自己不再是观众,而是第一人称的导演。我输入的每一个字,都像是在给飞船添加燃料,驱动着它飞向我想象中的下一帧。再比如这个,直升机飞越巴黎时,输入突然天空转暗,电闪雷鸣,画面立刻风云突变;接着输入“远处一个巨大的烟花绽放”,天空中真的就升起了一朵烟花,天气也随之转晴。整个环境和特效都能配合着指令实时做出互动,是一个非常连续性的展示。
你就看这个Pixverse实机操作的录屏界面,我感觉这玩意儿根本不只是一个视频生成器,更像是一个可以被语言实时编程的微型世界。
我就好奇了,这背后到底是怎么做出来?为什么要做一个跟别人不一样的?我去啃了一下他们的技术论文,用人话翻译一下,R1能做到这个实时生成的效果,主要靠这三样:第一个是叫Omni的原生多模态大模型。你可以把它想象成一个从小就同时学习了看、听、说三种语言的天才。它不像别的模型需要把音视频翻译成文本才能懂,它天生就能在一个系统里,同时理解视频、音频和文字。这让它的反应快得像是本能。

第二个零件是一种叫自回归的机制。这东西就像一个拥有超强短期记忆的说书人,它永远记得自己上一秒讲了什么,所以下一秒的故事,总能和前面无缝衔接。这保证了视频可以像一条无限的河流一样,持续地连贯地生成下去。

最后,也是最关键的,是一种叫即时响应引擎(IRE)的技术。如果说传统AI视频生成,像是搭乐高,需要一步步拼接(几十步的采样),IRE就像是变魔术,它能直接预测出最终成品的轮廓,然后用极少的步骤(一到四步)就把它变出来。

这些正是它能实现实时交互的秘密武器。所以,它到底用在哪?我个人是感觉,PixVerse R1这类实时模型,并非要取代Veo们在叙事性短片创作上的作用。它们其实可以并驾齐驱,Sora们在追求成为顶级的电影工作流,而R1正在努力成为一个充满无限可能的互动娱乐引擎。它真正开疆拓土的地方,在于那些极度依赖实时交互的领域。比方游戏, 想象一下你走到NPC面前,不需要几周目才能引导变化,不再是从预设的三个选项里选一句对话。你可以自由输入任何你想说的话,NPC会根据他的性格和你们之前的经历,实时生成独一无二的表情和互动场景,我甚至可以开个上帝模式,对游戏世界本身下指令,我希望我这个赛博钓鱼佬可以回回上鱼,那我真的要笑到合不上嘴了

也就是说,游戏,将从一个玩家只能被动体验的故事,变成一个真正可参与的世界。再再比方说互动电影,现在去大商场体验4D电影都要out了,我大胆想象一下,我可以摆脱A/B选项式的伪互动,随时暂停,给主角下达一个全新的指令,别相信他,先看看他口袋里藏了什么,然后电影会为你即时地生成一段新的故事脉络,我就经常在想要是故事不会结束就好了。

盗梦空间这个陀螺我是真希望能看到它停下来,被一个新的幕后之人拿起来写到这里,我突然想到了一个可能离我们每个人都更近的使用场景。你有没有过这样的经历?做了一个无比清晰的奇幻梦,画面感强到你自己都起鸡皮疙瘩,但我醒来后想跟朋友描述,搜肠刮肚用了无数的形容词,要不就发现忘了,要不就是形容不出来,什么叫我在鳌太线拿着四块压缩饼干在大爷海煮火锅啊(我至今形容不出来神秘园究竟在我脑子里留下了什么)。这还能联系上一个科学名词,梦境遗忘(dream amnesia)梦大多发生在REM期(快速眼动睡眠)或临近醒来的过渡阶段,醒来属于从一个脑状态跳到另一个脑状态,所以会出现一种典型的感觉,就是我知道我刚刚看到了什么,但现在就是想不起来。因为在梦里体验的是视觉,空间,情绪,氛围,象征感,但醒来我要把它压缩成线性的句子的话,这个过程中会出现一种梦的不可言说感(dream ineffability)。这时候想要最大程度保证梦不被遗忘,可以先写关键词,不要追求完整叙事,比如,银色楼梯,潮湿的风,我逃跑的时候踩空了,也可以用感官描述替代抽象形容词,光像浸水的霓虹、空气里有铁锈甜味、远处的声音像倒放的合唱。

说实话,我每天都在跟这种转达的损耗作斗争。但R1这类实时模型的出现,或许为我们提供了一种全新的表达方式。它能让我能把那个转瞬即逝的梦境,用一种更直观,更无损的方式复现出来。它将创作的反馈周期从数小时甚至数天,压缩到了零。而这种即时反馈极大地释放了我的实验精神和表达欲望。现在已经可以排队内测了,目前能体验360p了,过几天还能用上720p,趁着还没收费之前,我要多跑五六七八九十个。
@ 作者 / 卡尔
