千问上线阿里版Banana2和Veo3.1,我挖出了十种新玩法

AI 知识库2周前发布 AI沃茨
1,169 0 0
博思AIPPT
能看出来阿里做千问的决心了,这两天视频模型Wan-2.5和图像模型Qwen-Image-Edit已经上线了,

千问上线阿里版Banana2和Veo3.1,我挖出了十种新玩法

Qwen-Image-Edit没有使用限制

千问上线阿里版Banana2和Veo3.1,我挖出了十种新玩法
千问上线阿里版Banana2和Veo3.1,我挖出了十种新玩法
千问上线阿里版Banana2和Veo3.1,我挖出了十种新玩法

Wan-2.5免费用户一天可以生成10个

所以这次我从Nano Banana Pro和Veo3.1各自选出了5种适合千问的玩法,包括影片空镜,角色一致性,互动场景,短视频,以及广告分镜;多图融合与编辑,文字排版与信息图,真人换装,IP周边设计,以及肖像照风格转换。

🎹

一样是有打包好的提示语和生成效果,公众号后台发“千问”就好了

先说Wan2.5吧,音画同步,10s时长1080P,支持上传参考图片,但自带的参考音频这次展示没有更新到千问App上

🌅

一个中年男子坐在温馨书房的木桌前,周围是书架和温暖的灯光。他打开一本旧书,用平静而深沉的声音朗读:”历史教给我们的不仅仅是事实……它向我们展示了我们是谁。”房间里有细微的背景音:翻书声、时钟微弱的滴答声,以及远处窗外的雨声。

生成的视频里中年男人的口型是跟这旁白走的,而且我刻意打的“……”在视频里面也是有停顿的表现。再来看一个更难的。

一位自信美丽的年轻美国女性手持麦克风站在舞台上,背景是播放着抽象视觉效果的大型LED屏幕。她微笑着向观众们说道:”Good evening everyone. Tonight, I want to share three powerful lessons about leadership and innovation.” 她的口型与声音完美同步,说话时辅以富有表现力的手势动作。

这个Case主要测的是英文口型和肢体语言的协调性。Wan-2.5处理得非常自然,手势没有乱飞,口型也对上了。除了音画同步,我还参考了Grok在X上目前排名最火的5个使用场景,来了一波横向测评。这五个场景分别是,影片空镜,角色一致性,互动场景,短视频,以及广告分镜。第一种,影片空镜。这通常用于电影的故事续写,或者给视频做特效增强。

❤️

黄昏时分的未来城市景观,通过添加在摩天大楼间穿梭的飞行汽车来扩展场景,平滑过渡,电影感光照,4K 分辨率。

生成的画面里,光影的过渡非常丝滑,汽车飞过的喷气声是会从近到远的,在楼宇间穿梭的轨迹也很符合物理逻辑。接下来的角色一致性生成是经典case了,为的是保持多镜头对话和系统视频里面我们用的主角是一样的。

💡

一个有着银色长发和绿色长袍的年轻巫师在森林中施法,保持场景间形象一致,添加对话:’Expecto Patronum!’,情绪表达:专注和坚定。

第三种互动场景也是高频使用了,通常是包含基本动作、互动和人物情绪的。

🐵

两个朋友在雨中跑过街道,笑着溅起水洼,包括跳过障碍物,快乐情绪,关键时刻慢动作,城市背景。

这里面涉及到了跑步、跳跃、水花飞溅,还有慢动作。千问生成的视频里,两个人手拉手一起运行也没有融合或者重叠,脚踩进水里的物理反馈也基本正确,那种快乐的情绪通过慢动作和音效传递得很到位。排名第四的短视频,我第一时间想起来之前看到的红外监控系列,

一群可爱的兔子在卧室的床上跳跃,模仿红外监控摄像头风格,活泼而混乱,可循环 10 秒。

出来的效果有那种深夜监控实录的感觉,而且满足无限循环的特点,兔子的动作过于活泼而显得有点鬼畜。。。OK,来个广告分镜,这个场景不仅考画面,还考文字生成能力。

NBA 总决赛宣传视频:篮球运动员慢动作扣篮,观众欢呼,添加字幕’Champion’,配乐同步

这里比较难的是文字叠加和切换镜头。以前的AI视频里,字都是乱码。但这次Wan-2.5生成的画面里,Champion这几个字虽然还是有点AI味,但已经基本可读了,镜头切换也完成了提示语的要求,氛围感很强。聊完视频,再来看看那个没有使用限制的Qwen-Image-Edit。支持多图融合,还原生支持ControlNet,可通过关键点图改变人物姿势。最经典的例子就是相机角度控制,又可以叫快速切换视角。

Qwen-Image-Edit当然不止这些能力,所以我还用来挑战多图融合与编辑,文字排版与信息图,真人换装,IP周边设计,以及肖像照风格转换。某书上面最近在火的人物拆解图反而在X上没翻出多大水花。先看多图融合,

🎁

将赛博朋克城市与宁静森林融合,边缘无缝衔接,为树木添加霓虹灯,高细节,8K 分辨率。
千问上线阿里版Banana2和Veo3.1,我挖出了十种新玩法

生成的图片里,霓虹灯缠绕在古树上,科技与自然那种冲突又和谐的美感,被处理得很细腻,边缘没有明显的拼接痕迹。再看文字排版。这个是我最想测的,Banana2这次我印象最深的几种效果就有写故事,

🎁

请为“采菊东篱下,悠然见南山。”这首诗配图。
千问上线阿里版Banana2和Veo3.1,我挖出了十种新玩法

Qwen-Image-Edit有中文生成能力,但实话实话还不能做到在一张图里面塞一整首诗。接着是真人换装,本质上也是多元素组合,

🌰

将这张平铺的当季连衣裙变成一位穿着它在T台上走秀的亚洲女性,优雅姿势,真实光线,照片般逼真。
千问上线阿里版Banana2和Veo3.1,我挖出了十种新玩法
千问上线阿里版Banana2和Veo3.1,我挖出了十种新玩法

模特穿上了参考图里的裙子,皮鞋,袋子,丝巾等元素,避开了杂志图里面作为干扰项的墨镜。然后是IP周边设计,

🎉

为哆啦 A 梦设计商品:T 恤,图案为角色手持道具,蓝色配色方案,可爱风格,包含中文文字’任意门’。
千问上线阿里版Banana2和Veo3.1,我挖出了十种新玩法

这其实是在考模型的世界知识,看看它知不知道哆啦 A 梦是什么,对于比较日常成熟的主题Qwen-Image-Edit是可以准确画出来的,但是复杂加倍的产品拆解图还是值得优化的空间。

千问上线阿里版Banana2和Veo3.1,我挖出了十种新玩法

最后是肖像照风格转换。

🌰

职业装年轻女性肖像,影棚灯光,逼真皮肤质感,添加微妙微笑,企业背景。
千问上线阿里版Banana2和Veo3.1,我挖出了十种新玩法
千问上线阿里版Banana2和Veo3.1,我挖出了十种新玩法
千问上线阿里版Banana2和Veo3.1,我挖出了十种新玩法

这个中景的皮肤细节,服装和背景的虚化,我觉得用来做脉脉头像,简历照片,甚至是工牌照,都可以用。这次我用了不一样的case收集思路,上面的提示语基本都是老外写的提示语翻译过来的,通过这些case可以看出来他们关注的重点,反过来用来测试国产图像模型,挑战其实会更大。记得上次我写千问的时候,评论区里就有朋友催更Qwen-Image-Edit。我怀疑千问开发组天天看评论区上新。

千问上线阿里版Banana2和Veo3.1,我挖出了十种新玩法

这几年,Qwen开源了很多超好用的模型。但说实话,对于普通用户来说,门槛还是太高了。你得去HuggingFace,去GitHub,得会部署,得有显卡。很多好东西,因为没有一个简单的界面,导致很多人根本没用上。千问App这次的更新,属于是双向奔赴了。真心希望能继续保持这个节奏,把更多好玩好用的功能加进去,变成我们手机里新的AI入口。

@ 作者 / 卡尔


© 版权声明

相关文章