如果你不敢再用Opus，什么模型是好的选择？

之前总有人问我，写代码用哪个模型好，我总会说“无脑选Opus“。
但从上个月开始，我不这么说了。
原因很简单，Opus 4.7很强，但你得先过三关，网络、信用卡充值、账号被封。$200一个月的Max订阅确实太贵了，我上个月刚把Claude Code的订阅取消了。
其实最重要的不是价格，是我感觉Opus的光环没了，在很多社区里大家也在反馈，为什么Opus越来越难用了，这是一个原因，还有一个原因就是，别的模型现在做的也很牛了。

01.破局

今天，MiniMax M3正式开放使用。

这是全球第一个同时集齐Coding Frontier、1M上下文窗口、原生多模态这三个核心能力的开源模型。之前能同时跑通这三项的只有极少数闭源旗舰，Opus 4.8、Gemini 3.1、GPT-5.5。
M3是第一个把完整Frontier能力带进开放世界的模型。
国产、国内可用、价格还非常实惠。

02.M3到底是什么水平

先看几个硬指标。
在SWE-Bench Pro上，M3拿下59.0%，超过GPT-5.5和Gemini 3.1 Pro，紧咬Opus 4.7。Terminal Bench 2.1达到66.0%，Claw-Eval Agent端到端评测直接拿下最高分。

而且它不是被喂出来的。MiniMax构建了一套交互式用户模拟器框架，让模型在训练阶段就接触真实的协作场景，像真正的工程师一样，能理解、修改、维护真实软件系统。

03.DEMO

今天主要测试代码、办公、视频理解这几个大家比较关心的点。

视频理解

平时一些比较长的视频，比如说讲一些概念的，再就是产品发布会，看起来很累。
M3原生能读视频，理解了视频内容，想根据视频去问一些问题，就很容易了。
我平时喜欢看小林说讲的内容，这个视频截图，给大家看看。

我把视频直接丢进去了。

这个30分钟的视频，我只用了2分钟就看完了。

这个能力对我来说很重要，尤其是偶尔有些发布会，我想第一时间整理好内容给大家，没有时间去看那几个小时的视频，这样就可以让AI先分析，分析完了我再去跳着看关键部分。

办公场景

M3是原生多模态的，所以用起来就会很舒服，在办公场景的舒适程度是真的拉满了。
我来测个相对比较复杂的任务，有格式的转换，有图表的分析，让它一起去完成。

很棒啊！论文翻译格式都完全保留下来了，跨语言的事情都变的非常简单。

里面的图表也都通过M3模型对图片的理解搞定了，而且非常贴心，给我放在不同的sheet里。

在办公场景的体验，真的很爽，指哪打哪。

Coding

测个有意思的，让M3做个AI自己跟自己玩的游戏。
skill我就不加了，提示词也简单些，让它自己去搞，看下模型本身的那种感觉是怎么样的。

我是直接在MiniMax Code里用的，这种自我查验BUG的感觉很舒服。
每一步都非常清晰，让你知道它到底是在做什么。

动画特效的感觉确实很不错！这是我直接生成的，没有去定义很多内容，当然大家平时vibe coding别学我测试这么玩，该用skill还是得用的，对功能的描述越完善，得到的结果就越接近自己想要的感觉。

04.三个硬核升级，看懂M3的价值

①1M上下文 + MSA架构创新

M3支持100万tokens上下文窗口。这不是堆算力堆出来的，背后是重新设计的注意力模块MSA。
传统Transformer处理长文本时计算量会爆炸，MSA用一种更聪明的稀疏注意力机制，把KV分块做得更精准、有效上下文覆盖更高，同时算子层面做了优化，每块只读一次、访存连续。
效果是：在100万上下文下，M3每token计算量仅为上代模型的1/20，Prefilling加速超过9倍，Decoding加速超过15倍。而且是原生32K就开始预训练，训练全程没有出现任何loss spike。
1M上下文本身是基础设施，后面所有长程Agent、长程Coding、长视频理解能力，都建立在它之上。

② 原生多模态

很多模型的多模态是文本模型训练好后，再外挂一个视觉编码器对齐。M3从Step 0就开始多模态混合训练，文本和视觉语义空间高度对齐。整个预训练数据规模扩展到100T量级，包括纯文本、图文交织、图文对、视频数据。
这意味着它看图表、读论文截图、理解产品原型UI，都不是猜，是真看得懂。

③ Coding Frontier

M3会像工程师一样工作，M3在NVIDIA Hopper GPU上优化FP8矩阵乘kernel，从只有一份broken Triton骨架和benchmark脚本开始，24小时内自主完成147次benchmark提交、1959次工具调用，将硬件峰值利用率从7.6%推进到71.3%，实现9.4倍加速。
数字之外更重要的是执行过程，除Opus 4.7和M3外，其余模型大多在前30次提交后就不再取得新进展并主动退出。而M3的最优解出现在第145次提交，在此之前经历了多个性能不再提升的平台期，但仍在继续尝试。这韧性，是模型真正Agent能力的分水岭。

05.量大管饱

MiniMaxToken Plan的性价比还是非常高的，真的很实惠。

Plus ¥49/月：6亿token，约等于Claude Pro $20月度的5倍容量
Max ¥119/月：18亿token，约等于Claude Max $100的2倍容量
Ultra ¥469/月：55亿token，约等于Claude Max $200的3倍容量

按相同价格算，约是Claude订阅的15倍用量。
MiniMax Code桌面端已经可以直接下载使用，开箱即用M3。它内置了Agent Team工作流，大任务自动分解成多阶段、可并发执行的工作流，支持跨应用、跨文件、跨系统的桌面自动化操作。

而且！！！MiniMax官方发了，M3模型API限时五折，还在用M2的赶快去切换下。

06.写在最后

在极端复杂任务上，M3与Opus 4.7、GPT-5.5还有差距，但差距在缩小。
其实。。现在差距越来越难用肉眼看出来了，这里所谓的差距也都是官方给的评分。
而且考虑到它是开源模型、国内直接可用、价格不到Claude的十分之一，这个性价比拐点已经到了。
天下苦Opus久矣。
苦的不是它不够强，而是它贵、它难用、它离我们太远。
当国产模型用开源的方式把Frontier能力带到每个人面前时，选择的天平，开始倾斜了。

扫码加入AI交流群获得更多技术支持和交流（请注明自己的职业）