多模态+400token/s，Step 3.7 Flash已经开始像我的Agent副驾了

之前我都是力大砖飞，

直接两个Pro账号接Agent上就不考虑额度了，但架不住Agent多啊，到周五周六就周限额了，好吧其实是因为我觉得慢给Codex上了1.5倍速硬生生吃2.5倍积分消耗。所以这段时间在尝试把Hermes里的辅助模型换个更快的。

多模态+400token/s，Step 3.7 Flash已经开始像我的Agent副驾了

所以当我看到阶跃星辰开源了他们新模型，Step 3.7 Flash，原生多模态，速度来到了400token/s（标准版的GPT5.5 API是42到72token/s），MoE（专家混合模型）架构，总参数196B激活11B，默认上下文是256k，三档推理强度调节，是光看一轮参数就想要上手测试一把的程度。免得说我欺负人家GPT，我还特意做了一个Codex经常用到的案例，就是双command判断目前屏幕发生了什么。

从纸面实力上看，这个快模型没有因为速度牺牲性能。

我直接学某包用最直白的方式说明白，比起上一代3.5 flash是有全面提升，在ClawEval-1.1（通用 Agent ），SWE-Bench Pro（真实编程），HLE with Tool（高难知识推理）比DeepSeek V4 Flash和Gemini 3.5 Flash高，可以看到它的定位更多是一个针对Agent类任务调优过的快模型。在终端/命令行任务，复杂编码，工具综合能力也在追GPT-5.5和Claude Opus 4.7了，至于传统的API价差的环节我就直接上图了，

那接下来轮到我跟钱包一拍即合，把三种情况一次性对比明白，

开局先来一个根据截图拆解品牌风格，然后把这个风格应用在另一个领域上的case，

🎹

基于截图和ai-news-radarSkill，直接生成一个原创的 AI 日报 / AI 选题雷达品牌网页。任务要求：

直接分析截图的视觉语言。
生成原创的AI日报/ AI 选题雷达品牌网页，品牌名自选。
产物必须是一个可直接打开的单文件 HTML。
写完后简短回复，输出文件路径，从截图借鉴了哪些视觉元素。
如果无法写入文件，在回复中输出完整 HTML，并用清晰的

BEGIN_HTML/END_HTML包裹。

GPT5.5，

三个版本都抓到了原图里那套极简黑白的气质，大留白、超大字号、黑色胶囊按钮，这些基本都没跑偏。纯GPT-5.5那个版本，我觉得SVG是三个里面最稳的，雷达这个意象也更像一个真正的品牌符号。它的问题也很GPT，慢，而且做前端的时候有时候会把自己的思考过程、解释性内容一起塞进HTML里，后面还要我再清一遍。
GPT 5.5 + step 3.7 flash，

GPT-5.5加Step 3.7 Flash这个版本，中文产品感反而更舒服。标题有主次，Logo更像手机里会出现的入口，还用了日历去表达「今天」这个概念。
Step 3.7 Flash，

纯Step 3.7 Flash夸张的是速度。GPT-5.5花了4分钟把初版跑出来，它用了36秒就把完整的HTML写完了。
接着我又测了一种现在很常见的主页玩法。很多AI产品会把首屏Hero的提示词直接放出来，背景是生成好的视频或者动画。我们可以先让模型读这个首屏，再顺着同一套风格往下生成子模块。

提示语原文太长，我这里直接翻成人话。这类提示词一般会先把页面的视觉底座钉死，比如字体用什么，背景视频是什么，桌面端和移动端的首屏怎么摆，Hero里有哪些文案和按钮。然后就是技术边界。比如只能用React、ReactDOM、Tailwind CSS、Vite，不允许额外加UI库，也不要临时引入一堆看起来很高级但项目里根本没用到的依赖。一回生二回熟，我们这次照样看看他们的速度，以及在执行的过程中，哪个遵守约束是最稳定的。GPT5.5，

没想到这把纯GPT-5.5有点拉了。第一轮跑下来，背景视频还没有露出来，还是在第二轮的时候修好的，如果说整体的设计有什么我喜欢的点，就是因为它把模块作为背景。所以其实我们在下面滑动这些模块的时候，都能够看到电脑人。
GPT 5.5 + step 3.7 flash，

GPT-5.5加Step 3.7 Flash这组，过程中用到了不允许的React插件，但它很快反应过来，自己删掉了。把Hero模块生成之后，我就让他沿用延续同一套风格，把首屏下面的几个模块做出来。做完之后我甚至怀疑自己是不是打开错页面了。因为一直很固执的GPT-5.5，在Step 3.7 Flash参与之后，模块响应和色彩轮换居然有一点Claude那种味道了。
Step 3.7 Flash，

纯Step 3.7 Flash还是最快，152秒左右完成，不过依赖没那么干净，打字机那里出现了Gad…undefined这种文本bug。不过从设计上来说，我还是蛮喜欢它这种条纹类的，给我一种眼前一新的感觉，因为它用到更多丰富的色彩。
第三个Case，我换成PPT。现在我们可以用一个带Deep Research思路的提示语，再接一个HTML PPT Skill，直接生成一份信息密度比较高、还能带演讲模式的说明式PPT。

❤️

用KKKKhazix/khazix-skills里的hv-analysis做联网分析和LearnPrompt/humanize-ppt做一个带演讲模式的中文PPT，主题是Codex入门教程

纯GPT5.5，

从视觉上看，纯GPT-5.5整体风格都有在hold住，但中间有一页突然用了橙色字体一出来。
GPT 5.5 + step 3.7 flash，

GPT-5.5加Step 3.7 Flash这个版本，内容组织更积极，抓到的资料源也更多。但它在章节大标题页上有点掉模板，章节页面会单剩一个文字块。
Step 3.7 Flash，

纯Step 3.7 Flash还是speed speed speed，提示语发出去没多久，整个页面就已经有了。它还把原来蓝色主题里那种星星点阵，跟黑色底色混在一起，做出了一套不太一样的主题。再看内容和资料引用，GPT-5.5加Step 3.7 Flash抓的源最多，然后是GPT-5.5，再就是Step 3.7 Flash。
只能说原生多模态是真的爽，提示语发出去没多久整个页面就都有了，如果它能把这些高频，重复，低风险但非常吃token的任务完整跑完，那它对Agent工作流的价值，可能比一句国产模型能上Claude Code还好用。因为Agent每次对话都不只调用一次模型。它可能一次任务里调用十几次、几十次，甚至更多。单次快一点，放到完整工作流里，体感差距会被放大。尤其是Hermes这种起标题，上下文压缩摘要，轻量分类这种后台任务。如果每个中间动作都用最贵的Pro模型跑，省心是省心了，一次对话十几分钟真的是有点等不下去。这里回收一下副标题，把Step 3.7 Flash接在闪电说里面，识别的速度非常快，进度条就没卡过。

如果把这些新出的模型，不止是Step 3.7 flash，作为一个辅助模型先跑起来，试错成本也低很多。我从Claude切到GPT的时候就非常不顺手，也是先手动把一些任务拆开，把放心交给GPT做都先丢过去。不像把API，账号登陆Codex只能二选一，我们完全可以给一个长期运转的Agent自由搭配不同的模型，比起之前要测几十万token，确认新模型能不能取代惯用模型的紧张感，我还是更喜欢现在的松弛感。

@ 作者 / 卡尔