深夜炸弹!GPT-5.5直接把AI从“聊天”拉进“干活”时代

AI 知识库20小时前发布
888 0 0
熊猫办公
深夜炸弹!GPT-5.5直接把AI从“聊天”拉进“干活”时代
大家好,我是墨香异境。
OpenAI 深夜发布了其“迄今为止最智能、最直观”的 AI 模型——GPT-5.5。
原来写个Prompt(提示词)都要像写“八股文”一样小心翼翼。但AI的玩法可能被彻底颠覆了,Prompt工程师可能要集体失业了。
现在你不需要再手把手教它你第一步要做什么、第二步要做什么。现在,你可以直接把一坨模糊不清、乱七八糟的需求扔给它,然后点开某个摸鱼软件等着。当它干完活儿发消息叫你验收时,你甚至会产生一种错觉:我是不是给自己招了个不用发工资的员工?
AI正在向 Agentic Computing(智能体计算)迈进。

1. 从“对话”到“干活”:更聪明的 AI 过去我们使用 AI 就意味着要小心翼翼地拆解任务、一步步地看着它走、随时准备纠偏。GPT-5.5 不一样了。 GPT-5.5 能更快地理解你想做什么,并亲自承担更多的工作。”它擅长编写和调试代码、在线研究、分析数据、创建文档和电子表格、操作软件,并且能在不同工具之间切换直到任务完成。 简单说,你只需要把需求扔过去,它会自己拆解执行、自己检查结果,你只需要看最终成果。 GPT-5.5 在处理模糊问题时表现出极强的自主性,能快速理解用户意图,自主规划并执行多步骤复杂任务,在代码编写调试、在线研究、数据分析及跨工具操作等场景表现优异。OpenAI 总裁格雷格·布罗克曼表示:“该模型更加直观,仅凭少量的指示就能自己掌握需要做的事情。”2. 编程领域大杀四方GPT-5.5 提升最猛的领域是编程。 在衡量复杂脚本编写能力的 Terminal-Bench 2.0 测试中,GPT-5.5 取得了 82.7% 的准确率;而 GPT-5.4 为 75.1%,竞品 Claude Opus 4.7 仅为 69.4%,谷歌 Gemini 3.1 Pro 更是仅有 68.5%。在 Expert-SWE(内部专家级软件工程测试)中,GPT-5.5 以 73.1% 遥遥领先于前代的 68.5%。

深夜炸弹!GPT-5.5直接把AI从“聊天”拉进“干活”时代

更让人震撼的是,GPT-5.5 还具备了完成大规模编程任务的能力。在 FCE-Editor(即 FCE 编辑器基准)测试中,GPT-5.5 得分 23.5%,比 GPT-5.4 的 13.5% 和 Claude Opus 4.7 的 19.9% 都高出了一大截。早期测试者反馈称 GPT-5.5 在理解和修复 Bug 方面表现极佳,对代码架构和故障点的理解远超此前模型。一位早期测试者说,这是他第一次在一个编程模型身上感受到真正的“概念清晰度”——“不是接话,是理解了问题之后自己想明白如何解决。” 以下是在各方面的表现都很出色:

深夜炸弹!GPT-5.5直接把AI从“聊天”拉进“干活”时代
深夜炸弹!GPT-5.5直接把AI从“聊天”拉进“干活”时代
深夜炸弹!GPT-5.5直接把AI从“聊天”拉进“干活”时代
深夜炸弹!GPT-5.5直接把AI从“聊天”拉进“干活”时代
深夜炸弹!GPT-5.5直接把AI从“聊天”拉进“干活”时代
深夜炸弹!GPT-5.5直接把AI从“聊天”拉进“干活”时代
深夜炸弹!GPT-5.5直接把AI从“聊天”拉进“干活”时代

3. 打破“更强就更慢”的魔咒 过去每一次模型升级,“更强”和“更慢”几乎是捆绑在一起的。更大的模型,更多的参数,更长的思考时间。用户为智能买单,同时也在为延迟买单。GPT-5.5 打破了这条铁律。 虽然模型规模更大了,但在真实的生产环境中,GPT-5.5 每个 Token 的延迟和 GPT-5.4 持平,而完成相同任务所需要的 Token 数量反而减少了。在 Artificial Analysis 的综合编码评测中,GPT-5.5 要么用更少的 Token 达到与竞品相同的分数,要么用相同的 Token 完成比竞品更多的任务。这种效率的提升意味着,AI 技术正在以更低的成本惠及企业和普通消费者。

深夜炸弹!GPT-5.5直接把AI从“聊天”拉进“干活”时代

不仅如此,发布现场还披露了一个关键数据:GPT-5.5 在 NVIDIA GB200 NVL72 系统上的推理效率大幅飙升,每一百万个 Token 的成本降至前代的 1/35,输出量提升了整整 50 倍!效率、成本、速度全面优化,这已经不是简单的升级,而是一次质的飞跃。

深夜炸弹!GPT-5.5直接把AI从“聊天”拉进“干活”时代

4. 更强的“智能”:科学研究的好帮手 如果编程只是“锦上添花”,那在科研领域的进步就是“雪中送炭”。 在 FrontierMath 基准测试中,GPT-5.5 拿下了多个维度的领先。Tier 1-3 级别得分 51.7%,远超谷歌的 36.9%;Tier 4 级别得分 35.4%,也领先于 GPT-5.4 的 27.1%。

深夜炸弹!GPT-5.5直接把AI从“聊天”拉进“干活”时代

OpenAI 首席研究官马克·陈表示,GPT-5.5 操控电脑完成办公任务的能力优于前代,能更好地支持技术研发和药物发现等领域的工作。即使遇到超出模型知识范围的科学问题,GPT-5.5 也可以自主联网做开源研究,真正像人类研究员一样自己找答案。 在企业应用端,OpenAI 更是披露了一个惊人的数据:纽约银行已经在对 GPT-5.5 进行测试,另一位正在试用 GPT-5.5 的金融机构高管直言不讳地指出:“输出质量的大幅提升,以及令人印象深刻的‘抗幻觉’能力,对银行来说至关重要。”5. 为安全上两道“紧箍咒” 虽然 GPT-5.5拥有强大的功能,但OpenAI并没有因为追求性能而忘记安全。相反,这一次他们给这个强大的 AI 戴上了两道“紧箍咒”。 官方在公告中强调,OpenAI为GPT-5.5配备了“迄今为止最强大的安全防护措施,旨在减少滥用,同时保留对有益工作的访问权限”。在正式发布前,GPT-5.5 经历了包括内部和外部红队测试、针对性的高级网络与生物能力测试,并收集了近 200 家早期合作伙伴的真实反馈。 尽管GPT-5.5在测评中被发现具备“极高的安全编码能力”,但 OpenAI 依然保持着最高的警惕。GPT-5.5的网络安全能力评分高达 81.8%,而且 OpenAI 明确表示,该模型将拥有更强的拒绝机制,会主动规避执行“与网络攻击或生物风险相关”的任何指令。换句话说,你让它帮你写恶意代码?它只会甩你一个“呵呵”。 虽然GPT-5.5已经在 ChatGPT 上线,但API接口也即将推出。当然,智能的代价也很明显——而且是实打实的贵。 GPT-5.5的API输入定价为每百万Token 5美元,输出定价每百万 Token 30美元。而更高级的 GPT-5.5 Pro(具备更高的智能水平和更强的推理能力),每百万Token的输入价格更是飙到了30美元,输出价格则高达180美元。这个价格比GPT-5.4翻了三倍。写在最后 GPT-5.5的发布节奏清晰地表明:AI模型的更新正在从“代际升级”转向“周更迭代”。福布斯评论道,AI 模型的发布越来越像常规的软件更新。

学习交流群:创建了一个学习交流群,欢迎大家加入一起学习。
加入方法:关注->点击“关于我”->添加微信(备注:入群交流)->添加入群。
© 版权声明

相关文章