12大场景一手横测GPT Image 1.5和香蕉2，我找到OpenAI不开发布会的原因了

还是怀念OpenAI发布会的日子，至少不会就提前两小时发个预告，所有人熬夜等更新，这次更新的GPT Image 1.5有更强的指令遵循，更精准的图像编辑，生成速度比之前快了四倍，而且已经全量全用户上线了，还上了一个新的粉粉的使用界面，

12大场景一手横测GPT Image 1.5和香蕉2，我找到OpenAI不开发布会的原因了

这次他们放出来的cases基本就是照着Banana2来的，多文本生成，文字信息海报，世界知识等等，那我肯定要满足他们的愿望，来一个GPT Image 1.5和Banana2世纪大PK，十二个场景一次性看爽！老规矩所有提示语和图片都打包了，公众号回复“gpt生图”就行先来个6*6网格多元素生成的地狱case热热身，

✏

绘制一个6×6的网格创建一个6列×6行的网格，内容如下：第一行：希腊字母β、沙滩球、柠檬、机器人、鱼缸、青蛙第二行：螳螂、昂贵手表、浴缸、太阳镜、彩色蝴蝶、信封第三行：邮票、相框、热气腾腾的饺子、”奇迹”一词、滑雪板、字母Z第四行：马桶、地铁代币、静音图标、香水瓶、蜻蜓、滑板头盔第五行：蓝牙图标、数字13、绿色爱心、魔方、加拿大鹅、军用头盔第六行：白色小狗、救生衣、绳结、键盘、纸巾盒、数字14

这是Banana2的，虽然单个元素的画风会比GPT Image 1.5顺眼，但确实列数超过了，有些元素重复生成，

GPT Image 1.5，

第一局用的是GPT Image 1.5的case，第二局轮到Banana2的主场了，

生成一张3:4的图片，画面上方用书法写着一首完整的《茅屋秋风所破歌》，内容是【完整全文】，每个字上方都要标注上汉语拼音，同时画面内容主要用水墨画的形式展示这首诗所表达的情景。

看来GPT Image 1.5的中文还没训练够完整，中文错字好高，反而是拼音注音的准确率还高点，

Banana2做出来的长这样，

OK。马上进入第三局世界知识PK，还是Banana2的主场case，这次就直接开始图生图了，

✏

这是中国最高桥梁花江峡谷大桥的照片，描述这个桥梁的基本信息，图像标题为花江峡谷大桥的中英文并有矩形框，包括尺寸，宽度，高度，主缆长度，建成日期等，保证原图不变，信息以手写标注的形式添加在图中，并标在对应位置。在空白处画出桥梁主缆的剖面原理示意和悬索桥基本原理示意。

第一眼我真的有被唬到，但我发现数值跟Banana2有点不太一样，这张图里桥面离水面的高度数据最大跨度是对的，其他的都是错误的。

Banana2做出来的数据的正确率高很多，

看来要降低一点难度，做点信息图或者海报了。还有就是我真没有欺负GPT Image 1.5，生成过程也是会用到GPT 5.2补充知识的，所以通过经纬度还是可以做对应地点的历史海报的。

用一组图，描绘公元前260年5月至10月之间，东经112°41到113°09′，，北纬35°39′到35°59′ 发生的事情，并给出详细的信息图，图上要用中文说明发生了什么事情，以及结果的重要信息

GPT Image 1.5，

Banana2，

测到现在感觉没啥悬念，1.5有点压不住2啊，OpenAI还给GPT Image 1.5列出了几个小的质量更新，比方说生成非常非常非常非常多的小面孔也不会崩。

❤️

成千上万的人群聚集在上海东方明珠前。人群中每个人的脸都必须清晰可见。

Banana2做出来的长这样，

一拉大的话从第四列的人开始脸就开始崩了

但GPT Image 1.5做出来的这个真的会伪人到我做噩梦的程度，优化在哪了？

还有什么能测的呢？多图融合和精确修改还可测测看，因为ChatGPT一次只能上传10个图片，所以我传了10个毛茸茸做多图融合

一张中景照片，10 个毛茸茸的角色挤在一起，并排坐在磨损的米色布沙发上和地板上。他们都面向前方，看着放在沙发前低矮木桌上的一个复古木盒电视机。房间光线昏暗，左侧窗户透进温暖的光线，电视发出的光芒照亮了生物的面孔和毛茸茸的质感。背景是一个舒适、略显杂乱的客厅，有编织地毯、摆满旧书的书架，以及背景中的一些乡村风格厨房元素。整体氛围温暖、舒适且充满乐趣。

这个case就有点区分不出来哪个比较好了，两个都有漏角色，重复生成的，GPT Image 1.5是少生成了一个，Banana2是多生成了一个，GPT Image 1.5，

Banana2，

图像修改的话，GPT Image 1.5刚好碰上Banana2更新了，上传图片的时候可以画圈，箭头，文字来指定修改，

左侧case没找到出处，右侧是@歸藏佬做的让GPT Image 1.5也挑战一下吧，

画面我是真没太看出来明暗有什么变化，但是划线花圈文字啥的确实都抹除了，换个case来看会更加明显，三个不同颜色的圈圈成功了一个。

OpenAI也主动承认了GPT Image 1.5在风格化上会比上一代要差，想要表现好的话可以用提供的滤镜，不过只有13种够谁用啊。

再拉我也测试看看，

💡

把图一（柯南）转真人，模仿图二的风格生成一个带2D插图元素的真人街拍

可能是我做的时候对GPT Image 1.5没抱太大期望，这把他居然是还行的，

左边是GPT Image 1.5右边是Banana2把一张九宫格图做成完整视频目前应该是只有Sora2能做到，之前我都用Banana2做图的，今天刚好也试试看GPT Image 1.5做的效果。

🚅