千问上线阿里版Banana2和Veo3.1，我挖出了十种新玩法

AI 知识库8个月前发布 AI沃茨

5,934 0 0

能看出来阿里做千问的决心了，这两天视频模型Wan-2.5和图像模型Qwen-Image-Edit已经上线了，

Qwen-Image-Edit没有使用限制

Wan-2.5免费用户一天可以生成10个

所以这次我从Nano Banana Pro和Veo3.1各自选出了5种适合千问的玩法，包括影片空镜，角色一致性，互动场景，短视频，以及广告分镜；多图融合与编辑，文字排版与信息图，真人换装，IP周边设计，以及肖像照风格转换。

🎹

一样是有打包好的提示语和生成效果，公众号后台发“千问”就好了

先说Wan2.5吧，音画同步，10s时长1080P，支持上传参考图片，但自带的参考音频这次展示没有更新到千问App上

🌅

一个中年男子坐在温馨书房的木桌前，周围是书架和温暖的灯光。他打开一本旧书，用平静而深沉的声音朗读：”历史教给我们的不仅仅是事实……它向我们展示了我们是谁。”房间里有细微的背景音：翻书声、时钟微弱的滴答声，以及远处窗外的雨声。

生成的视频里中年男人的口型是跟这旁白走的，而且我刻意打的“……”在视频里面也是有停顿的表现。再来看一个更难的。

一位自信美丽的年轻美国女性手持麦克风站在舞台上，背景是播放着抽象视觉效果的大型LED屏幕。她微笑着向观众们说道：”Good evening everyone. Tonight, I want to share three powerful lessons about leadership and innovation.” 她的口型与声音完美同步，说话时辅以富有表现力的手势动作。

这个Case主要测的是英文口型和肢体语言的协调性。Wan-2.5处理得非常自然，手势没有乱飞，口型也对上了。除了音画同步，我还参考了Grok在X上目前排名最火的5个使用场景，来了一波横向测评。这五个场景分别是，影片空镜，角色一致性，互动场景，短视频，以及广告分镜。第一种，影片空镜。这通常用于电影的故事续写，或者给视频做特效增强。

❤️

黄昏时分的未来城市景观，通过添加在摩天大楼间穿梭的飞行汽车来扩展场景，平滑过渡，电影感光照，4K 分辨率。

生成的画面里，光影的过渡非常丝滑，汽车飞过的喷气声是会从近到远的，在楼宇间穿梭的轨迹也很符合物理逻辑。接下来的角色一致性生成是经典case了，为的是保持多镜头对话和系统视频里面我们用的主角是一样的。

💡

一个有着银色长发和绿色长袍的年轻巫师在森林中施法，保持场景间形象一致，添加对话：’Expecto Patronum!’，情绪表达：专注和坚定。

第三种互动场景也是高频使用了，通常是包含基本动作、互动和人物情绪的。

🐵

两个朋友在雨中跑过街道，笑着溅起水洼，包括跳过障碍物，快乐情绪，关键时刻慢动作，城市背景。

这里面涉及到了跑步、跳跃、水花飞溅，还有慢动作。千问生成的视频里，两个人手拉手一起运行也没有融合或者重叠，脚踩进水里的物理反馈也基本正确，那种快乐的情绪通过慢动作和音效传递得很到位。排名第四的短视频，我第一时间想起来之前看到的红外监控系列，

一群可爱的兔子在卧室的床上跳跃，模仿红外监控摄像头风格，活泼而混乱，可循环 10 秒。

出来的效果有那种深夜监控实录的感觉，而且满足无限循环的特点，兔子的动作过于活泼而显得有点鬼畜。。。OK，来个广告分镜，这个场景不仅考画面，还考文字生成能力。

NBA 总决赛宣传视频：篮球运动员慢动作扣篮，观众欢呼，添加字幕’Champion’，配乐同步

这里比较难的是文字叠加和切换镜头。以前的AI视频里，字都是乱码。但这次Wan-2.5生成的画面里，Champion这几个字虽然还是有点AI味，但已经基本可读了，镜头切换也完成了提示语的要求，氛围感很强。聊完视频，再来看看那个没有使用限制的Qwen-Image-Edit。支持多图融合，还原生支持ControlNet，可通过关键点图改变人物姿势。最经典的例子就是相机角度控制，又可以叫快速切换视角。

Qwen-Image-Edit当然不止这些能力，所以我还用来挑战多图融合与编辑，文字排版与信息图，真人换装，IP周边设计，以及肖像照风格转换。某书上面最近在火的人物拆解图反而在X上没翻出多大水花。先看多图融合，

🎁

将赛博朋克城市与宁静森林融合，边缘无缝衔接，为树木添加霓虹灯，高细节，8K 分辨率。

生成的图片里，霓虹灯缠绕在古树上，科技与自然那种冲突又和谐的美感，被处理得很细腻，边缘没有明显的拼接痕迹。再看文字排版。这个是我最想测的，Banana2这次我印象最深的几种效果就有写故事，

🎁

请为“采菊东篱下，悠然见南山。”这首诗配图。

Qwen-Image-Edit有中文生成能力，但实话实话还不能做到在一张图里面塞一整首诗。接着是真人换装，本质上也是多元素组合，

🌰

将这张平铺的当季连衣裙变成一位穿着它在T台上走秀的亚洲女性，优雅姿势，真实光线，照片般逼真。

模特穿上了参考图里的裙子，皮鞋，袋子，丝巾等元素，避开了杂志图里面作为干扰项的墨镜。然后是IP周边设计，

🎉

为哆啦 A 梦设计商品：T 恤，图案为角色手持道具，蓝色配色方案，可爱风格，包含中文文字’任意门’。

这其实是在考模型的世界知识，看看它知不知道哆啦 A 梦是什么，对于比较日常成熟的主题Qwen-Image-Edit是可以准确画出来的，但是复杂加倍的产品拆解图还是值得优化的空间。

最后是肖像照风格转换。

🌰

职业装年轻女性肖像，影棚灯光，逼真皮肤质感，添加微妙微笑，企业背景。

这个中景的皮肤细节，服装和背景的虚化，我觉得用来做脉脉头像，简历照片，甚至是工牌照，都可以用。这次我用了不一样的case收集思路，上面的提示语基本都是老外写的提示语翻译过来的，通过这些case可以看出来他们关注的重点，反过来用来测试国产图像模型，挑战其实会更大。记得上次我写千问的时候，评论区里就有朋友催更Qwen-Image-Edit。我怀疑千问开发组天天看评论区上新。

这几年，Qwen开源了很多超好用的模型。但说实话，对于普通用户来说，门槛还是太高了。你得去HuggingFace，去GitHub，得会部署，得有显卡。很多好东西，因为没有一个简单的界面，导致很多人根本没用上。千问App这次的更新，属于是双向奔赴了。真心希望能继续保持这个节奏，把更多好玩好用的功能加进去，变成我们手机里新的AI入口。

@ 作者 / 卡尔