五大真实场景横测GPT-image-2和Nano Banana2，我只能说香蕉要过气了

一开始我对GPT-Image-2是没抱什么期望的，之前的Image-1.5拉了，Nano Banana Pro和2又有点太强了，沉寂了5个月的Image-2突然开始灰度，也没个发布会啥的，但是当灰度到我后，我发现一句话就能生成下面这张图的时候，我就知道，OpenAI这把稳了，这段时间包是搞到了很多很厉害的数据。

五大真实场景横测GPT-image-2和Nano Banana2，我只能说香蕉要过气了

📌

这篇文章里所有的提示词和原尺寸对比图，我都整理好到文档了，回复GPT2就OK。

我立马去搜了一下，看是不是真有这个人。还好，虽然名字一样，但是账号内容是不一样的。这个人是AI捏造的，但太真了，这光影，这氛围感，属于是我看到截图会愣个30秒才能反应过来。那我再生成一个影视飓风的首页试一下吧。

说实话我恍惚了。。。就算左边是个假的，但是味真的太对了，是怎么做到封面一致性那么高的？我觉得今天这篇测评的方向，已经非常明确了。直接来场硬核对决，把我上次测评Nano Banana用的那些提示语，扔给GPT-Image-2再过一遍。一开始我还担心，如果直接拿Nano Banana擅长的，那些已经测试过几百遍的提示语给Image 2，会不会不太公平。所以，我收集了目前汇总到的GPT-Image-2的更新信息，加强的有文字渲染，世界知识，照片真实感，界面和布局生成（比较新的点），还加强了人物一致性，生成速度（一张图3秒），分辨率和图像编辑能力，跟Banana2擅长的挺重叠的，不存在说有先手优势，那我们直接开始PK！
1｜文字这是Nano Banana Pro的传统优势，我们先从这里开始，我做了一个包含多种不同大小的字体和复杂排版的海报设计需求。

📚

请设计一张 3:4 竖版国潮茶饮新品上市海报，品牌名为山川茶事。整体风格新中式、轻奢、克制，颜色以墨绿、米白、金色为主，融合宣纸肌理、留白、淡雅山水、现代版式设计。画面主体是一杯高颜值冷泡茶与茶叶、柑橘、冰块、金箔元素，画面必须兼具商业感与审美感。海报中必须准确呈现以下文字：山川茶事山柚观音冷泡系列新品上市一口清醒，半城入夏限定尝鲜价中杯 16 元大杯 19 元门店活动第二杯半价加 3 元升级轻乳版每日前 100 名赠限定杯套推荐风味观音茶底 / 西柚果香 / 轻乳云顶 / 冰感回甘活动时间 4月20日至 5月10日扫码点单 SHANCHUAN TEA 底部小字：图片仅供参考，请以门店实际售卖为准要求海报具备明显促销信息层级，同时依旧精致，不要做成廉价电商海报。重点测试小字、数字、价格、信息模块与中文字体美感。

左GPT右🍌说实话，我觉得一眼就能看出来这个海报哪一个更好看，哪一个更真实。左边这个我就觉得真的有这样的一个奶茶品牌，而且这个奶茶的包装和它的整个风格，根本就和我们平时喝的果茶没什么区别。但是右边这个放在Banana刚出来的时候觉得还行，但现在看多了就觉得AI感很重。再来看看这张招聘海报，里面文字太多提示语太长，我就放到文档里了。

我觉得从这两个 case 就能看出来，这两个模型可能有不同的优化方向。整体上来说，我会明显感觉到左边 GPT-Image-2 出来的风格，更像我平时在某团某聘上面看到的宣传海报，设计感强，整体的排版设计其实更符合招聘海报风格，包括它的文字，层级，以及添加的很多图标设计，细节都更到位。

💡

中文信息图海报，主题为一杯咖啡如何来到你手里。风格为高级信息设计，兼具科普感与商业视觉感，版式清晰，带有路径箭头、数据框、图标、简洁插画和模块化卡片。色调以咖啡棕、奶白、墨黑、少量铜色点缀。要求图文并重，信息非常多，但仍然好看。海报必须完整展示以下内容：一杯咖啡如何来到你手里 01 种植海拔 1200 至 2200 米适宜温度 18℃ 至 24℃ 采摘期通常集中在 11 月至次年 3 月 02 处理日晒水洗蜜处理 03 烘焙浅烘更明亮中烘更平衡深烘更浓郁 04 研磨手冲偏粗意式偏细冷萃中粗 05 萃取粉水比水温时间都会影响风味风味关键词花香 / 柑橘 / 坚果 / 焦糖 / 巧克力 / 烟熏你喝到的每一口都来自一连串精密选择底部小字：适合用于咖啡入门科普与门店展示重点测试长信息图、数字、温度、编号、短说明、斜杠风味词和多模块排版。要让它看起来像高质量展板，不要像课堂PPT。如果你要把这 10 组再升级成真正的压测套题，我建议下一步直接做三层难度版本：第一层，纯中文大标题加少量小字第二层，中英混排加数字价格加多模块第三层，超长正文加底部细小版权信息加复杂表格式排版

左GPT右🍌放到这张咖啡图里就区别就更明显了，左边的GPT-Image-2会用更多偏向真实的素材进行辅助说明，也会选择像宋体这样比较偏细的字体，更有简洁感和高级感。海报的留白更符合审美，让人的视觉感受更舒服。不像右边banana做出来的，会觉得整个海报有点挤，又有边框，又把所有的文字跟图片和素材都挤在一起，在视觉上一下子觉得压力有点大。

📌

高端护肤品电商首图海报，产品名为澄光维稳精华。整体风格干净、轻奢、科学护肤感强，画面中心是一瓶半透明磨砂玻璃精华液，带淡金色液体和水珠反光，背景为奶白到暖灰渐变，局部有液体流动与微观分子结构装饰。要求同时具备品牌感和卖货感。海报必须包含以下文案：澄光维稳精华修护屏障舒缓泛红细腻透亮第 2 代升级配方核心成分神经酰胺泛醇 B5 积雪草提取物微囊脂质体适合人群敏感肌熬夜肌换季不稳定肌限时到手价 229 元买 1 送 3 赠洁面 15ml 赠精华 5ml 赠面霜 10g 左下角小字：实际效果因人而异，请坚持使用要求重点测试商品卖点、价格、赠品列表、产品名与功能短句的层级。整体要高级，不能土，不要过度直播间风格。

左GPT右🍌产品展示这一块我觉得更不用多说了。GPT用的是目前护肤类产品更喜欢使用的细衬线，加上简洁图标的方式。包括整个产品里面，精华瓶子里会冒出的微小气泡，以及瓶子上面展示的产品名字，搭配的英文名，毫升数，都更加符合真实产品的样子。尤其在赠品方面，它还根据我提供的图片画出了对应的赠品形式，感觉更像在淘宝页面里看到的图片了。但是右边这个还是老样子，我觉得 Banana 看久了会觉得整个画面，尤其是它经常会用的右边这张海报里的这种字体（10张文字图里8张都是这种字体），AI 感还是有点重。

用中文给我制作一张科普图片，讲述详细的植物进行光合作用的原理

左GPT右🍌左边的GPT-Image-2就像是把我高中课本扫描了一遍，直接就给我出一页课件，Nana Banana 画的更像一个课本里的一张插图。我这才测了第一部分就想要半场开香槟了。
2｜真实世界接下来拼的是对真实世界的理解和复刻能力。我选择了一个包含不同光影不同材质和不同情绪的场景。

🦄

生成一张极其真实的商场纪实摄影照片，场景是周末傍晚的大型购物中心扶梯口，一位 30 岁左右的亚洲男性刚从上行扶梯走下来，左手拎着购物袋，右手正在低头回消息，神态自然，没有看镜头。他穿深灰色连帽卫衣外搭黑色薄夹克，下身是宽松卡其裤和轻微磨损的运动鞋，头发略乱，脸上有一点出油感和下巴胡茬。商场灯光是复杂的混合光，顶部暖白灯、品牌橱窗冷白灯、远处广告屏彩色光同时存在，地面是高反光瓷砖，能看到模糊但真实的倒影。背景里有经过的人群、奶茶店招牌、玻璃护栏、模糊品牌海报。要求像摄影师在商场里抓拍的真实瞬间，不能像时尚街拍摆拍，皮肤、衣服、鞋面、购物袋折痕、玻璃反射都要非常真实。

左GPT右🍌很难想象这两个模型用了多少图片素材，是有多爱喜茶啊，两个模型都画。而且我觉得先不说别的，左边的GPT-Image-2做出来的男生发型就会更真一点，而且怎么角落里还有个佳琦直播间啊！！

📚

生成一张超真实的城市街头群像照片，场景是夏夜十点的便利店门口，三到四个年轻人正在门口短暂停留聊天，有人拿着饮料，有人坐在店外塑料椅上，有人站着低头看手机。便利店的玻璃门和橱窗透出明亮白光，外面路边则是暖黄街灯和远处车灯。人物穿搭非常日常，包含T恤、衬衫、短裤、牛仔裤、运动鞋，不要网红穿搭感，脸部状态和体态都要像真实路人，不能每个人都过于精致。环境要有真实便利店元素，冰柜贴纸、促销海报、垃圾桶、门口地垫、玻璃倒影、路边共享单车、地面饮料瓶水珠。画面像摄影师在城市里拍到的一张非常真实的生活切片，重点测试多人自然互动、夜间便利店灯光、玻璃反射和普通人气质的还原能力。

左GPT右🍌我觉得有意思的点，就是从他们生成这些偏生活类的照片中，我可以去猜一下这些来源的训练照片是什么时候的。就比方说，右边Banana居然生成了一辆蓝色的 ofo单车，左边的GPT-Image-2里人物手里拿着的那瓶呢，我盲猜是红牛跟茉莉蜜茶的混合体。

左GPT右🍌这个场景我觉得分不出高低，因为左边的GPT-Image-2有个万年老立白和没洗干净的菜盘子，另一个banana有万年砧板。我只能说，广东人家里的砧板不会放在锅前面，因为这样会溅到油。如果非要抠完细节的话，我觉得 GPT 会小赢一点点。毕竟它这里面看起来炒肉的肉丝多一点。哎不对，我突然看到了Image2里的这个围裙居然是建设银行的！
3｜界面复刻我觉得刚刚看了某音和某站复刻的页面还不过瘾。所以我又做了更多，比如这个黑悟空实机演示画面，

生成黑悟空神话，被二郎神打飞的游戏画面

玩过黑悟空的应该都会觉得上边的GPT-Image-2更真实吧，天命人跟杨戬的形象跟原游戏的风格很像，战斗模式也是第一人称视角的，甚至还有台词，右面更像是左右回合制对战的形式。然后我还翻出了最开始测香蕉的时候，用的微信聊天记录群的提示语。

左GPT右🍌我觉得这局算是平手。左边GPT-Image-2的图，整个布局和字体都更接近微信的排版，但是右边Banana引用图片的方式，以及聊天中间会有时间展示，都更接近微信。再来看看电商首页的这个 UI 展示，

✏

生成一张高保真移动端电商 App 首页界面截图，整体风格参考 2026 年主流中文电商 App，要求界面极其真实，具有完整的手机应用 UI 逻辑与商业设计感。页面顶部为状态栏，包含时间 9:41、5G 信号、电量图标。下面是搜索框区域，左侧为城市选择杭州，中央是圆角搜索框，提示词为搜索耳机、咖啡机、运动鞋，右侧有消息图标和扫一扫图标。搜索区下方是横向分类标签，包含推荐、数码、家电、服饰、美妆、食品、运动、家居，其中推荐高亮选中。首页主体内容必须包含以下结构并排版清晰：顶部轮播 Banner 一张，主题为 618 预售开启，副标题每满300减50，画面带商品海报和红色促销氛围 Banner 下方为 10 宫格功能区，图标风格统一，包含超市、百亿补贴、秒杀、直播、充值中心、到家、领券、品牌馆、全球购、排行榜中部为限时秒杀模块，左侧标题，右侧倒计时 02:14:39，下方三件商品卡片横向排列，每件商品含商品图、标题、现价、原价、已售进度条下方为猜你喜欢双列商品瀑布流，至少 6 张商品卡，每张卡片包含商品图、两行商品标题、价格、月销、店铺名、好评率、券后价标签底部固定 Tab Bar，包含首页、分类、购物车、消息、我的，其中首页为高亮状态要求：所有中文文字清晰、可读、接近真实字体图标统一，间距合理，留白真实卡片阴影、圆角、分隔线、标签样式高度像真实 App 不要生成手机外壳，只输出纯界面截图整体必须让人一眼觉得是真实电商 App 截图，而不是概念图

左GPT右🍌这两个的首页其实都还挺像的，但是右边的 Banana 很喜欢用这种比较粗的字体，让画面看起来比较挤，而且总是给我输出这种带边框的图片。再来看一个音乐播放器的 UI 界面，

📚

生成一张高保真中文音乐 App 播放页界面截图，移动端竖屏，视觉精致，风格接近现代流媒体播放器。整体以深色模式为主，背景来自专辑封面的模糊扩散色，中央是大尺寸方形专辑封面，带微弱阴影和圆角。顶部状态栏时间 18:26。导航栏左侧返回箭头，中间标题正在播放，右侧更多操作图标。页面需包含以下信息并排版真实：歌曲名：海边的晚风歌手：林秋专辑名：夏夜实验室播放进度条，当前时间 01:42，总时长 04:18 进度条下方为拖动圆点控制按钮包括随机、上一首、播放暂停、下一首、循环下方有歌词区域，显示 5 到 7 行滚动歌词，其中当前播放行高亮，其余行弱化再下方有喜欢、评论、下载、收藏到歌单、分享按钮行页面底部有设备投放与播放队列入口要求：歌词排版要有真实的音乐播放器体验深色层级、按钮图标、进度条反光与阴影要真实中英文数字混排自然整体像可直接上架的产品界面，而不是 Dribbble 概念稿

光是左边GPT-Image-2给我做了一个专辑封面，这一点就已经赢了。然后我还把我的账号截图发给了 GPT 和 Banana，让他给我做一个抖音直播的预告封面。

📌

给这个账号制作一张抖音直播预告图，直播内容和时间你来设计

左GPT右🍌只能说左边GPT-Image-2真的赢麻了，它自己设计的这些内容以及看点，我看了都想直接拿来用。
4｜一致性除了文生图，我现在还特别依赖生图模型对于图片二次处理的能力。也就是说，我希望它能够保持我上传的参考图片的风格，或者保持参考图片中主体的一致性，这两点都非常重要。所以我也对比了Image2和 Banana的人物一致性能力。这里我直接用两个表情包，分别看看它们对动画人物和真实人物的一致性都能保持得怎么样。上来就让它们生成十六宫格表情包。

生成一个有着银色长发和蓝色眼瞳的二次元动漫少女的十六宫格表情图。她的脸型、发型、服装必须在所有格子里保持高度一致。十六个表情需要包含：开心、难过、愤怒、惊讶、害羞、无语、坏笑、沉思、好奇、得意、委屈、鄙视、困惑、害怕、流泪、以及一个爱心的表情。

左GPT右🍌好家伙，原来芙莉莲可以有这么多表情的吗？不过我觉得其实两方的差别不是很大。硬要说的话，我其实更喜欢左边GPT-Image-2给我分格的形式，右边所有芙莉莲的耳朵都连在一起了。那再来看看这个哈利波特呢，这是剧版小哈利波特的剧照，什么时候上映啊。

这场我给到平局。右边Banana在保持人物脸型和发型的一致性上做得非常好，中间Image-2则在表情的多样性上小胜一把。我还做了一个产品场景的，先让GPT 5.4了解一下常用的产品打光有哪些类，然后再让Image-2根据一个参考的香水图片，一次性输出多宫格图片。

上GPT下🍌
5｜图片参考再到图片参考这一块，也是我们使用频率很高的图片二次编辑能力。这里我跟家里小猫一拍即合，给它做一个肯德基的联名海报，

🌟

以「77（猫的名字）X肯德基」联名企划为主题，围绕同一只宠物（形象、花色等与上传图片绝对一致）生成一张联名海报。统一宠物形象与肯德基品牌识别（红白配色、经典LOGO、餐厅场景等）的前提下，让小猫穿肯德基员工制服、带上肯德基员工帽子，佩戴工牌站在柜台前、兜售炸鸡、汉堡和套餐、与炸鸡桶、薯条、汽水等元素互动等。画面风格活泼、有趣、具有商业联名感，适合用于线上宣传与活动海报。然后自由的为这张海报添加合适的中文内容。

可以看到两边的小猫的形象都还和原图保持了一致。但是整体的画面丰富度，包括下面还有一个联名限定，我觉得都是中间的GPT-Image-2做的会更好。右边 Banana 做出来的就有点呆了。而且，GPT的图片编辑的交互方式也很爽，直接点击图片，左下角就有个编辑功能，比方说，我在这里把麦当劳风分别改成了肯德基，汉堡王，麦当劳跟爱马仕的联名。我拿放大镜看了一下，细节部分处理得非常好，背后套餐小图上面的 Logo，底下收银机上面的文字，都是可以对上的。

再看海报复刻，左边我给了一张风格化非常强的一版海报，然后丢给Image2和Banana，让他们去复刻，把里面春天场景的内容改成冬天。

可以看到，其实中间的GPT-Image-2和右边的Banana对于整个风格的复刻做得都很不错，包括字体和图片的样式，都和原图保持了非常一致的风格。如果要论细节的话，可能中间Image-2那张图的九宫格截图更具有胶片的颗粒感，与原图的一致性会更高一点点。然后再来看看我们也经常会用到的图片翻译功能，

🎉

给这张漫画页上色并翻译成中文放到图中原来的位置，保持构图和图片细节的一致

真要说的话，右边GPT-Image-2的文字没有翻译完整，人物的名字没有翻译，但是中间这个Banana的翻译效果当时我抽了很久，文字总有那么几次不太稳定的时候，真要论文字稳定Image-2我可以给到夯！最后，同样是图片反推提示语，再让模型文生图，GPT-image-2（中间）的细节我能到夯！

呼，测试到这，当我再去翻GPT的图库时，回想到当时GPT4o爆火，还是因为生成那种抖动性的iPhone图。

这种突然的反超我真觉得是AI最有魅力的点，充满了不确定性。今天，你可能觉得某个模型是编程第一。明天，就可能有一个新的选择出现，它会用一种全新的思路来解决过去头疼的问题。这种你追我赶的状态会倒逼整个生态越来越好，使用的门槛越来越低。放到26年的今天，一个创作者订阅着十几个不同的AI会员一点都不离谱。但这件事，如果放在23年，光是订阅费就心痛。那个时候得挑着用，选着用，从一堆感觉能用的模型里边，选择一个看起来还行的。但现在，这种体验和感受已经变成了，我这个也想用，那个也想用。没有谁能代替得了谁，大家都是越做越好了。@ 作者 / 卡尔 & 阿汤