9.11比9.9大?GPT-5数学题都算错,真升级了吗?

AI 知识库2个月前发布 K姐Koi
970 0 0
博思AIPPT
9.11比9.9大?GPT-5数学题都算错,真升级了吗?
大家好,这里是K姐。一个帮你追踪最新AI应用的女子。(开奖已放在文末)
预告了几十波,OpenAI 今天终于上线了 GPT-5。
9.11比9.9大?GPT-5数学题都算错,真升级了吗?
上线没多久,就刷新了 lmarena.ai 竞技榜分数,直冲第一:

  • 在文本、Web 开发和视觉竞技场中稳居第一;
  • 在硬提示、编程、数学、创造力、长查询等方面同样荣登榜首。
9.11比9.9大?GPT-5数学题都算错,真升级了吗?
但是尴尬的是,发布会上GPT-5 生成的图表似乎翻车了。52.8 比 69.1 大?30.8 和 69.1 一样高?
9.11比9.9大?GPT-5数学题都算错,真升级了吗?
这就是 Sam Altman 口中 OpenAI 有史以来最聪明的模型吗?第一时间实测了一波,除了编程,都挺拉的…我只想说:还我4o。
9.11比9.9大?GPT-5数学题都算错,真升级了吗?
一手实测
  • case 1 经典易错题
先问一个经典的数学问题:
提示词:9.9和9.11谁大
9.11比9.9大?GPT-5数学题都算错,真升级了吗?
GPT-5 回答:9.11 比 9.9 大,因为在数字比较时先比整数部分(相同都是 9),再比小数部分,11 > 9。如果你是问日期,那就是 9 月 11 日比 9 月 9 日更晚。
  • case 2 编程
提示词:写一个 javascript 代码,显示一个小球在旋转的正六边形内弹跳。球应该受到重力和摩擦力的影响,它必须从旋转的墙壁上真实地弹起,用 javascript 和 html 实现它
整体效果还行,能看得出来受到重力和摩擦力的影响,不过弹跳的效果不是特别突出。
9.11比9.9大?GPT-5数学题都算错,真升级了吗?
  • case 3 图像生成
提示词:将图片里的内容翻译成中文,需要通俗易懂引人入胜,不改变原意,不要凭空添加没有的内容。
9.11比9.9大?GPT-5数学题都算错,真升级了吗?
我们对比一下,大家觉得哪个翻译的更好?Gemini 2.5 Pro:
9.11比9.9大?GPT-5数学题都算错,真升级了吗?
豆包:
9.11比9.9大?GPT-5数学题都算错,真升级了吗?
GPT‑5:
9.11比9.9大?GPT-5数学题都算错,真升级了吗?
在我看来,Gemini 2.5 Pro 翻译的最好,整体很通顺,很有人味;豆包其次,翻译虽然没什么大错,但缺少了一点人味;GPT 5 和豆包差不多,但是和Gemini 2.5 Pro 比起来,差距挺明显的。
  • case 4 前端
提示词:生成一个番茄钟的网页应用,包含以下功能:- 目标:计时器 + 会话记录。- 功能:自定义时长、自动启动选项、会话图表(SVG)、声音警报(提示音)、暗黑模式。- 界面应该适合日常使用,并能给用户一些活力!
GPT‑5 生成的番茄钟网页,整体审美要好一些,计时、暂停等等按钮的功能也完整,但是页面上这个大环形…我不理解。
9.11比9.9大?GPT-5数学题都算错,真升级了吗?
Gemini 2.5 Pro 生成的页面功能很完整,只是比较简陋,布局和色彩搭配没有 GPT‑5 好看,但是盖不住它能用啊!
9.11比9.9大?GPT-5数学题都算错,真升级了吗?
9.11比9.9大?GPT-5数学题都算错,真升级了吗?
一些分享
整体测下来,GPT‑5 幻觉有没有减少不知道,智商好像真的减少了。文案水平不仅没有增强,连以前的 GPT‑4o 都比不过。编程能力也中规中矩,可能是我没有用太复杂的提示词去测试…前端的审美感觉还不错,就是还会存在一些小BUG。这些都是One Shot,没有经过多次测试,但是不可能每次都刚好踩雷吧?最后,我只想说,这发布会白看了,GPT还我睡眠!GPT‑5 目前已上线官网,全员可用了。免费版每5小时可发送10条,Plus 版每3小时可发送80条。不信邪的可以自己去试试。
END
上期开奖
恭喜以下小伙伴获得18.88微信红包!感谢你看到最后,K姐会继续追踪最新AI应用和行业动态。如果你觉得内容还不错,有一点启发或帮助?希望小伙伴们多多👍点赞、❤推荐、评论、转发。K姐定期从四连中综合抽一位伙伴送上🧧红包,助力你购买AI会员和书籍,💗感谢支持~(一定要⭐星标公众号,才能第一时间收到推送哦~)
9.11比9.9大?GPT-5数学题都算错,真升级了吗?
© 版权声明

相关文章