
但从上个月开始,我不这么说了。
原因很简单,Opus 4.7很强,但你得先过三关,网络、信用卡充值、账号被封。$200一个月的Max订阅确实太贵了,我上个月刚把Claude Code的订阅取消了。
其实最重要的不是价格,是我感觉Opus的光环没了,在很多社区里大家也在反馈,为什么Opus越来越难用了,这是一个原因,还有一个原因就是,别的模型现在做的也很牛了。

M3是第一个把完整Frontier能力带进开放世界的模型。
国产、国内可用、价格还非常实惠。
先看几个硬指标。
在SWE-Bench Pro上,M3拿下59.0%,超过GPT-5.5和Gemini 3.1 Pro,紧咬Opus 4.7。Terminal Bench 2.1达到66.0%,Claw-Eval Agent端到端评测直接拿下最高分。

M3原生能读视频,理解了视频内容,想根据视频去问一些问题,就很容易了。
我平时喜欢看小林说讲的内容,这个视频截图,给大家看看。

我把视频直接丢进去了。


我来测个相对比较复杂的任务,有格式的转换,有图表的分析,让它一起去完成。


里面的图表也都通过M3模型对图片的理解搞定了,而且非常贴心,给我放在不同的sheet里。

在办公场景的体验,真的很爽,指哪打哪。
skill我就不加了,提示词也简单些,让它自己去搞,看下模型本身的那种感觉是怎么样的。

每一步都非常清晰,让你知道它到底是在做什么。
动画特效的感觉确实很不错!这是我直接生成的,没有去定义很多内容,当然大家平时vibe coding别学我测试这么玩,该用skill还是得用的,对功能的描述越完善,得到的结果就越接近自己想要的感觉。

传统Transformer处理长文本时计算量会爆炸,MSA用一种更聪明的稀疏注意力机制,把KV分块做得更精准、有效上下文覆盖更高,同时算子层面做了优化,每块只读一次、访存连续。
效果是:在100万上下文下,M3每token计算量仅为上代模型的1/20,Prefilling加速超过9倍,Decoding加速超过15倍。而且是原生32K就开始预训练,训练全程没有出现任何loss spike。
1M上下文本身是基础设施,后面所有长程Agent、长程Coding、长视频理解能力,都建立在它之上。
这意味着它看图表、读论文截图、理解产品原型UI,都不是猜,是真看得懂。

数字之外更重要的是执行过程,除Opus 4.7和M3外,其余模型大多在前30次提交后就不再取得新进展并主动退出。而M3的最优解出现在第145次提交,在此之前经历了多个性能不再提升的平台期,但仍在继续尝试。这韧性,是模型真正Agent能力的分水岭。

- Plus ¥49/月:6亿token,约等于Claude Pro $20月度的5倍容量
- Max ¥119/月:18亿token,约等于Claude Max $100的2倍容量
- Ultra ¥469/月:55亿token,约等于Claude Max $200的3倍容量
MiniMax Code桌面端已经可以直接下载使用,开箱即用M3。它内置了Agent Team工作流,大任务自动分解成多阶段、可并发执行的工作流,支持跨应用、跨文件、跨系统的桌面自动化操作。

其实。。现在差距越来越难用肉眼看出来了,这里所谓的差距也都是官方给的评分。
而且考虑到它是开源模型、国内直接可用、价格不到Claude的十分之一,这个性价比拐点已经到了。
天下苦Opus久矣。
苦的不是它不够强,而是它贵、它难用、它离我们太远。
当国产模型用开源的方式把Frontier能力带到每个人面前时,选择的天平,开始倾斜了。

© 版权声明
文章版权归作者所有,未经允许请勿转载。
