
我立马去搜了一下,看是不是真有这个人。还好,虽然名字一样,但是账号内容是不一样的。这个人是AI捏造的,但太真了,这光影,这氛围感,属于是我看到截图会愣个30秒才能反应过来。那我再生成一个影视飓风的首页试一下吧。


说实话我恍惚了。。。就算左边是个假的,但是味真的太对了,是怎么做到封面一致性那么高的?我觉得今天这篇测评的方向,已经非常明确了。直接来场硬核对决,把我上次测评Nano Banana用的那些提示语,扔给GPT-Image-2再过一遍。一开始我还担心,如果直接拿Nano Banana擅长的,那些已经测试过几百遍的提示语给Image 2,会不会不太公平。所以,我收集了目前汇总到的GPT-Image-2的更新信息,加强的有文字渲染,世界知识,照片真实感,界面和布局生成(比较新的点),还加强了人物一致性,生成速度(一张图3秒),分辨率和图像编辑能力,跟Banana2擅长的挺重叠的,不存在说有先手优势,那我们直接开始PK!
1|文字这是Nano Banana Pro的传统优势,我们先从这里开始,我做了一个包含多种不同大小的字体和复杂排版的海报设计需求。

=

左GPT右🍌说实话,我觉得一眼就能看出来这个海报哪一个更好看,哪一个更真实。左边这个我就觉得真的有这样的一个奶茶品牌,而且这个奶茶的包装和它的整个风格,根本就和我们平时喝的果茶没什么区别。但是右边这个放在Banana刚出来的时候觉得还行,但现在看多了就觉得AI感很重。再来看看这张招聘海报,里面文字太多提示语太长,我就放到文档里了。


我觉得从这两个 case 就能看出来,这两个模型可能有不同的优化方向。整体上来说,我会明显感觉到左边 GPT-Image-2 出来的风格,更像我平时在某团某聘上面看到的宣传海报,设计感强,整体的排版设计其实更符合招聘海报风格,包括它的文字,层级,以及添加的很多图标设计,细节都更到位。

左GPT右🍌放到这张咖啡图里就区别就更明显了,左边的GPT-Image-2会用更多偏向真实的素材进行辅助说明,也会选择像宋体这样比较偏细的字体,更有简洁感和高级感。海报的留白更符合审美,让人的视觉感受更舒服。不像右边banana做出来的,会觉得整个海报有点挤,又有边框,又把所有的文字跟图片和素材都挤在一起,在视觉上一下子觉得压力有点大。

左GPT右🍌产品展示这一块我觉得更不用多说了。GPT用的是目前护肤类产品更喜欢使用的细衬线,加上简洁图标的方式。包括整个产品里面,精华瓶子里会冒出的微小气泡,以及瓶子上面展示的产品名字,搭配的英文名,毫升数,都更加符合真实产品的样子。尤其在赠品方面,它还根据我提供的图片画出了对应的赠品形式,感觉更像在淘宝页面里看到的图片了。但是右边这个还是老样子,我觉得 Banana 看久了会觉得整个画面,尤其是它经常会用的右边这张海报里的这种字体(10张文字图里8张都是这种字体),AI 感还是有点重。


左GPT右🍌左边的GPT-Image-2就像是把我高中课本扫描了一遍,直接就给我出一页课件,Nana Banana 画的更像一个课本里的一张插图。我这才测了第一部分就想要半场开香槟了。
2|真实世界接下来拼的是对真实世界的理解和复刻能力。我选择了一个包含不同光影不同材质和不同情绪的场景。


左GPT右🍌很难想象这两个模型用了多少图片素材,是有多爱喜茶啊,两个模型都画。而且我觉得先不说别的,左边的GPT-Image-2做出来的男生发型就会更真一点,而且怎么角落里还有个佳琦直播间啊!!


左GPT右🍌我觉得有意思的点,就是从他们生成这些偏生活类的照片中,我可以去猜一下这些来源的训练照片是什么时候的。就比方说,右边Banana居然生成了一辆蓝色的 ofo单车,左边的GPT-Image-2里人物手里拿着的那瓶呢,我盲猜是红牛跟茉莉蜜茶的混合体。


左GPT右🍌这个场景我觉得分不出高低,因为左边的GPT-Image-2有个万年老立白和没洗干净的菜盘子,另一个banana有万年砧板。我只能说,广东人家里的砧板不会放在锅前面,因为这样会溅到油。如果非要抠完细节的话,我觉得 GPT 会小赢一点点。毕竟它这里面看起来炒肉的肉丝多一点。哎不对,我突然看到了Image2里的这个围裙居然是建设银行的!
3|界面复刻我觉得刚刚看了某音和某站复刻的页面还不过瘾。所以我又做了更多,比如这个黑悟空实机演示画面,


玩过黑悟空的应该都会觉得上边的GPT-Image-2更真实吧,天命人跟杨戬的形象跟原游戏的风格很像,战斗模式也是第一人称视角的,甚至还有台词,右面更像是左右回合制对战的形式。然后我还翻出了最开始测香蕉的时候,用的微信聊天记录群的提示语。


左GPT右🍌我觉得这局算是平手。左边GPT-Image-2的图,整个布局和字体都更接近微信的排版,但是右边Banana引用图片的方式,以及聊天中间会有时间展示,都更接近微信。再来看看电商首页的这个 UI 展示,


左GPT右🍌这两个的首页其实都还挺像的,但是右边的 Banana 很喜欢用这种比较粗的字体,让画面看起来比较挤,而且总是给我输出这种带边框的图片。再来看一个音乐播放器的 UI 界面,


光是左边GPT-Image-2给我做了一个专辑封面,这一点就已经赢了。然后我还把我的账号截图发给了 GPT 和 Banana,让他给我做一个抖音直播的预告封面。

左GPT右🍌只能说左边GPT-Image-2真的赢麻了,它自己设计的这些内容以及看点,我看了都想直接拿来用。
4|一致性除了文生图,我现在还特别依赖生图模型对于图片二次处理的能力。也就是说,我希望它能够保持我上传的参考图片的风格,或者保持参考图片中主体的一致性,这两点都非常重要。所以我也对比了Image2和 Banana的人物一致性能力。这里我直接用两个表情包,分别看看它们对动画人物和真实人物的一致性都能保持得怎么样。上来就让它们生成十六宫格表情包。



左GPT右🍌好家伙,原来芙莉莲可以有这么多表情的吗?不过我觉得其实两方的差别不是很大。硬要说的话,我其实更喜欢左边GPT-Image-2给我分格的形式,右边所有芙莉莲的耳朵都连在一起了。那再来看看这个哈利波特呢,这是剧版小哈利波特的剧照,什么时候上映啊。



这场我给到平局。右边Banana在保持人物脸型和发型的一致性上做得非常好,中间Image-2则在表情的多样性上小胜一把。我还做了一个产品场景的,先让GPT 5.4了解一下常用的产品打光有哪些类,然后再让Image-2根据一个参考的香水图片,一次性输出多宫格图片。

上GPT下🍌
5|图片参考再到图片参考这一块,也是我们使用频率很高的图片二次编辑能力。这里我跟家里小猫一拍即合,给它做一个肯德基的联名海报,



可以看到两边的小猫的形象都还和原图保持了一致。但是整体的画面丰富度,包括下面还有一个联名限定,我觉得都是中间的GPT-Image-2做的会更好。右边 Banana 做出来的就有点呆了。而且,GPT的图片编辑的交互方式也很爽,直接点击图片,左下角就有个编辑功能,比方说,我在这里把麦当劳风分别改成了肯德基,汉堡王,麦当劳跟爱马仕的联名。我拿放大镜看了一下,细节部分处理得非常好,背后套餐小图上面的 Logo,底下收银机上面的文字,都是可以对上的。



再看海报复刻,左边我给了一张风格化非常强的一版海报,然后丢给Image2和Banana,让他们去复刻,把里面春天场景的内容改成冬天。



可以看到,其实中间的GPT-Image-2和右边的Banana对于整个风格的复刻做得都很不错,包括字体和图片的样式,都和原图保持了非常一致的风格。如果要论细节的话,可能中间Image-2那张图的九宫格截图更具有胶片的颗粒感,与原图的一致性会更高一点点。然后再来看看我们也经常会用到的图片翻译功能,



真要说的话,右边GPT-Image-2的文字没有翻译完整,人物的名字没有翻译,但是中间这个Banana的翻译效果当时我抽了很久,文字总有那么几次不太稳定的时候,真要论文字稳定Image-2我可以给到夯!最后,同样是图片反推提示语,再让模型文生图,GPT-image-2(中间)的细节我能到夯!



呼,测试到这,当我再去翻GPT的图库时,回想到当时GPT4o爆火,还是因为生成那种抖动性的iPhone图。

这种突然的反超我真觉得是AI最有魅力的点,充满了不确定性。今天,你可能觉得某个模型是编程第一。明天,就可能有一个新的选择出现,它会用一种全新的思路来解决过去头疼的问题。这种你追我赶的状态会倒逼整个生态越来越好,使用的门槛越来越低。放到26年的今天,一个创作者订阅着十几个不同的AI会员一点都不离谱。但这件事,如果放在23年,光是订阅费就心痛。那个时候得挑着用,选着用,从一堆感觉能用的模型里边,选择一个看起来还行的。但现在,这种体验和感受已经变成了,我这个也想用,那个也想用。没有谁能代替得了谁,大家都是越做越好了。@ 作者 / 卡尔 & 阿汤

