如果你不敢再用Opus,什么模型是好的选择?

熊猫办公
如果你不敢再用Opus,什么模型是好的选择?
之前总有人问我,写代码用哪个模型好,我总会说“无脑选Opus“。
但从上个月开始,我不这么说了。
原因很简单,Opus 4.7很强,但你得先过三关,网络、信用卡充值、账号被封。$200一个月的Max订阅确实太贵了,我上个月刚把Claude Code的订阅取消了。
其实最重要的不是价格,是我感觉Opus的光环没了,在很多社区里大家也在反馈,为什么Opus越来越难用了,这是一个原因,还有一个原因就是,别的模型现在做的也很牛了。
01.破局
今天,MiniMax M3正式开放使用。
如果你不敢再用Opus,什么模型是好的选择?
这是全球第一个同时集齐Coding Frontier、1M上下文窗口、原生多模态这三个核心能力的开源模型。之前能同时跑通这三项的只有极少数闭源旗舰,Opus 4.8、Gemini 3.1、GPT-5.5。
M3是第一个把完整Frontier能力带进开放世界的模型。
国产、国内可用、价格还非常实惠。
02.M3到底是什么水平

先看几个硬指标。
在SWE-Bench Pro上,M3拿下59.0%,超过GPT-5.5和Gemini 3.1 Pro,紧咬Opus 4.7。Terminal Bench 2.1达到66.0%,Claw-Eval Agent端到端评测直接拿下最高分。

如果你不敢再用Opus,什么模型是好的选择?
而且它不是被喂出来的。MiniMax构建了一套交互式用户模拟器框架,让模型在训练阶段就接触真实的协作场景,像真正的工程师一样,能理解、修改、维护真实软件系统。
03.DEMO
今天主要测试代码、办公、视频理解这几个大家比较关心的点。

视频理解
平时一些比较长的视频,比如说讲一些概念的,再就是产品发布会,看起来很累。
M3原生能读视频,理解了视频内容,想根据视频去问一些问题,就很容易了。
我平时喜欢看小林说讲的内容,这个视频截图,给大家看看。

如果你不敢再用Opus,什么模型是好的选择?

我把视频直接丢进去了。

如果你不敢再用Opus,什么模型是好的选择?
这个30分钟的视频,我只用了2分钟就看完了。
如果你不敢再用Opus,什么模型是好的选择?
这个能力对我来说很重要,尤其是偶尔有些发布会,我想第一时间整理好内容给大家,没有时间去看那几个小时的视频,这样就可以让AI先分析,分析完了我再去跳着看关键部分。
办公场景
M3是原生多模态的,所以用起来就会很舒服,在办公场景的舒适程度是真的拉满了。
我来测个相对比较复杂的任务,有格式的转换,有图表的分析,让它一起去完成。
如果你不敢再用Opus,什么模型是好的选择?
很棒啊!论文翻译格式都完全保留下来了,跨语言的事情都变的非常简单。
如果你不敢再用Opus,什么模型是好的选择?

里面的图表也都通过M3模型对图片的理解搞定了,而且非常贴心,给我放在不同的sheet里。

如果你不敢再用Opus,什么模型是好的选择?

在办公场景的体验,真的很爽,指哪打哪。

Coding
测个有意思的,让M3做个AI自己跟自己玩的游戏。
skill我就不加了,提示词也简单些,让它自己去搞,看下模型本身的那种感觉是怎么样的。
如果你不敢再用Opus,什么模型是好的选择?
我是直接在MiniMax Code里用的,这种自我查验BUG的感觉很舒服。
每一步都非常清晰,让你知道它到底是在做什么。

动画特效的感觉确实很不错!这是我直接生成的,没有去定义很多内容,当然大家平时vibe coding别学我测试这么玩,该用skill还是得用的,对功能的描述越完善,得到的结果就越接近自己想要的感觉。

04.三个硬核升级,看懂M3的价值
①1M上下文 + MSA架构创新
如果你不敢再用Opus,什么模型是好的选择?
M3支持100万tokens上下文窗口。这不是堆算力堆出来的,背后是重新设计的注意力模块MSA。
传统Transformer处理长文本时计算量会爆炸,MSA用一种更聪明的稀疏注意力机制,把KV分块做得更精准、有效上下文覆盖更高,同时算子层面做了优化,每块只读一次、访存连续。
效果是:在100万上下文下,M3每token计算量仅为上代模型的1/20,Prefilling加速超过9倍,Decoding加速超过15倍。而且是原生32K就开始预训练,训练全程没有出现任何loss spike。
1M上下文本身是基础设施,后面所有长程Agent、长程Coding、长视频理解能力,都建立在它之上。
② 原生多模态
很多模型的多模态是文本模型训练好后,再外挂一个视觉编码器对齐。M3从Step 0就开始多模态混合训练,文本和视觉语义空间高度对齐。整个预训练数据规模扩展到100T量级,包括纯文本、图文交织、图文对、视频数据。
这意味着它看图表、读论文截图、理解产品原型UI,都不是猜,是真看得懂。
③ Coding Frontier
如果你不敢再用Opus,什么模型是好的选择?
M3会像工程师一样工作,M3在NVIDIA Hopper GPU上优化FP8矩阵乘kernel,从只有一份broken Triton骨架和benchmark脚本开始,24小时内自主完成147次benchmark提交、1959次工具调用,将硬件峰值利用率从7.6%推进到71.3%,实现9.4倍加速。
数字之外更重要的是执行过程,除Opus 4.7和M3外,其余模型大多在前30次提交后就不再取得新进展并主动退出。而M3的最优解出现在第145次提交,在此之前经历了多个性能不再提升的平台期,但仍在继续尝试。这韧性,是模型真正Agent能力的分水岭。
05.量大管饱

如果你不敢再用Opus,什么模型是好的选择?
MiniMaxToken Plan的性价比还是非常高的,真的很实惠。
  • Plus ¥49/月:6亿token,约等于Claude Pro $20月度的5倍容量
  • Max ¥119/月:18亿token,约等于Claude Max $100的2倍容量
  • Ultra ¥469/月:55亿token,约等于Claude Max $200的3倍容量
按相同价格算,约是Claude订阅的15倍用量。
MiniMax Code桌面端已经可以直接下载使用,开箱即用M3。它内置了Agent Team工作流,大任务自动分解成多阶段、可并发执行的工作流,支持跨应用、跨文件、跨系统的桌面自动化操作。
如果你不敢再用Opus,什么模型是好的选择?
而且!!!MiniMax官方发了,M3模型API限时五折,还在用M2的赶快去切换下。
06.写在最后
在极端复杂任务上,M3与Opus 4.7、GPT-5.5还有差距,但差距在缩小。
其实。。现在差距越来越难用肉眼看出来了,这里所谓的差距也都是官方给的评分。
而且考虑到它是开源模型、国内直接可用、价格不到Claude的十分之一,这个性价比拐点已经到了。
天下苦Opus久矣。
苦的不是它不够强,而是它贵、它难用、它离我们太远。
当国产模型用开源的方式把Frontier能力带到每个人面前时,选择的天平,开始倾斜了。
扫码加入AI交流群获得更多技术支持和交流(请注明自己的职业)
如果你不敢再用Opus,什么模型是好的选择?
关注「开源AI项目落地」公众号与AI时代更靠近一点

© 版权声明

相关文章