13个顶级AI重考2026高考数学,咋还没一个拿到满分

熊猫办公
事情是酱的。几天前发了一篇13个AI做2026高考数学全国一卷的测试,也得到了许多关注。但后台有几位数学老师留言以及给我们提意见,关注到几道题的题面好像不太对劲以及对于模型的选择有问题。我们回去全看了一遍,第一次测试的题目,有一部分是从截图或PDF转LaTeX来的。转的过程中,有些上标掉了,或者根号位置歪了,还有的选项条件解释跟原卷有细微出入等等等。

13个顶级AI重考2026高考数学,咋还没一个拿到满分

对于离开高数有点久的我来说,一开始确实是没找出毛病。数学和模型都是,对输入的敏感程度超出想象。从第一步就被带进沟里,后面推得越认真,只会让他错得越远。所以这一次,我们来个针对性复测。我们把整套卷子重新人工整理成LaTeX,每道题的题面,参考答案,评分口径,都和数学老师逐题过了一遍。然后让13个模型重新作答。所有模型都在全新对话里,一样的不联网,不查资料,不调用任何外部工具,只按高考答题标准输出完整过程。还是统一说一下这次的所有模型,claude,deepseek,gemini,minimax,kimi,gpt,qwen,grok,glm,豆包,混元

13个顶级AI重考2026高考数学,咋还没一个拿到满分
13个顶级AI重考2026高考数学,咋还没一个拿到满分
13个顶级AI重考2026高考数学,咋还没一个拿到满分

为了确保最终考场一致性,以Openrouter相同API为主,加上了来自火山引擎的豆包和腾讯的混元进行参与(主要是这两个没有在openrouter上有提供)。同一份Prompt也尽可能的做到了同一个API。并且开了同样的 high thinking模式。评分模式也严格按高考的来。单选只看最终选项,多选全对6分,只对一部分3分,如果错了还会扣分。解答题逐题核对结论,关键推导和证明完整性,只写可推出,证明见上的模型,一律按缺步骤扣分。

13个顶级AI重考2026高考数学,咋还没一个拿到满分

话不多说直接看最终成绩。

13个顶级AI重考2026高考数学,咋还没一个拿到满分

13个模型对错排行如下

13个顶级AI重考2026高考数学,咋还没一个拿到满分
13个顶级AI重考2026高考数学,咋还没一个拿到满分

13个模型,平均分居然高达139.4。什么概念?随便拉到一个考场里,全是年级前排的水平。且这次复测最大的发现,真不是谁是第一。是当题面,公式,条件足够干净的时候,模型的最终答案能力,已经接近到没法用客观题区分了。

13个顶级AI重考2026高考数学,咋还没一个拿到满分

8道单选,13个模型,全对。3道多选,除了Q11翻了两家,其余全对。3道填空,全对。Q15,Q16,Q17三道解答题,13家全部满分。整张热力图,前17题几乎一片绿。绿到我一度怀疑人生了。。。也人工真实核了一遍。但真的没错,就是绿的。。。那问题来了,既然大家前面都对,148和130之间这18分,到底是丢哪了?从Q11,这是全卷唯一的客观题翻车点。正确答案BCD,而GLM 5.1和Hy3都选了ABCD,多勾了一个A。按高考多选规则,含错选就是0分,6分被直接清零。

13个顶级AI重考2026高考数学,咋还没一个拿到满分

如同上次一样,多选题依旧是AI的事故高发区。选项A之前我们也分析了,成立的条件很微妙,看起来也挺对。然后是Q18,解析几何。

13个顶级AI重考2026高考数学,咋还没一个拿到满分

大部分模型的最终答案都是对的,椭圆方程对,直线方程对,最小值4√3也对。但是吧,按照阅卷标准去抠过程,毛病就全出来了。面积比是怎么转化成线段关系的,没写。R和P的中心对称关系,没说明。tan∠PQR的表达式从哪来的,也一步跳过去了。

13个顶级AI重考2026高考数学,咋还没一个拿到满分

但真把榜单拉开的,还得是可怕的19题压轴题。

13个顶级AI重考2026高考数学,咋还没一个拿到满分

这是一道函数新题型,定义了一个集合D(x),最后要你证明f(x)在(0,+∞)上单调递增。这种题头疼的地方在于,证明链每一环都必须闭合。要先证x>0时f(x)≤0,再证任意正增量d都属于D(x0),少一环,整个证明就是断的。

13个顶级AI重考2026高考数学,咋还没一个拿到满分
13个顶级AI重考2026高考数学,咋还没一个拿到满分

13个模型,没有一家在Q19拿到满分。

13个顶级AI重考2026高考数学,咋还没一个拿到满分

最好的GPT-5.5,也在最后一问的迭代证明里跳了步,扣2分。GLM 5.1出乎意料的除了证明以外的全做对了Opus 4.8, Deepseek, gemini为首的7个模型因为答案不完整,统一的都被扣了7分。而另外四个模型,也在概述想法或者方向错误上只拿了6分了。打分过程中有个细节我印象深刻。Opus 4.8做到第3问后半段,直接在卷面上承认,这里的严格证明它完成不了。

13个顶级AI重考2026高考数学,咋还没一个拿到满分
13个顶级AI重考2026高考数学,咋还没一个拿到满分

虽然扣了7分。但我反而感受到了真诚。。。比起那些写一堆显然,同理可证然后糊弄过去的,至少它清楚自己证没证出来。看到了好多模型都出现的幻觉,真实的承认在这一刻显得更有价值。很多模型能猜对结论,能给思路,能把数算对。但感觉说的对和写出一份挑不出毛病的证明,是两件事。高考阅卷从来不看你悟没悟,只看你写没写,以及正不正确。最后放个花絮,上次测完之后,大家很好奇每一个模型运行的时间,所以这次我们也统计下来了,

13个顶级AI重考2026高考数学,咋还没一个拿到满分

Grok 4.3整份卷子1分钟做完,快速的拿了全场倒数134分。豆包,Opus, Deepseek等很多也都证明了答案只是时间问题,都会做但就是差那一两分钟。

13个顶级AI重考2026高考数学,咋还没一个拿到满分

Qwen 3.7-Max磨了15分钟的分数跟Minimax m3离谱的2分钟,竟然都是138分的并列。

13个顶级AI重考2026高考数学,咋还没一个拿到满分
13个顶级AI重考2026高考数学,咋还没一个拿到满分

后来理解了,和人类考生一模一样。每个班都有那种刷题贼快的同学,也都有大题永远「会做但写不全」的同学。老师天天追在后面念,步骤分,步骤分。有的成功听进去了持续进步,但有的还是选择安于现状平平静静。AI就走到了现今这阶段,数学能力已经十分顶了,离应试规范还差一口气。区别在于,学生改掉一个毛病要练三年,但模型可能下个版本就改掉了。今年没人能在最终的加强版规则打分下满分。明年我们接着测,还是这套规矩,干净的题面,严格的口径,新的模型。我挺想看看,第一个能把证明链完整闭合的,会是谁。

13个顶级AI重考2026高考数学,咋还没一个拿到满分
@ 作者 / 卡尔 & yc星辰


© 版权声明

相关文章