13个顶级AI重考2026高考数学，咋还没一个拿到满分

事情是酱的。几天前发了一篇13个AI做2026高考数学全国一卷的测试，也得到了许多关注。但后台有几位数学老师留言以及给我们提意见，关注到几道题的题面好像不太对劲以及对于模型的选择有问题。我们回去全看了一遍，第一次测试的题目，有一部分是从截图或PDF转LaTeX来的。转的过程中，有些上标掉了，或者根号位置歪了，还有的选项条件解释跟原卷有细微出入等等等。

对于离开高数有点久的我来说，一开始确实是没找出毛病。数学和模型都是，对输入的敏感程度超出想象。从第一步就被带进沟里，后面推得越认真，只会让他错得越远。所以这一次，我们来个针对性复测。我们把整套卷子重新人工整理成LaTeX，每道题的题面，参考答案，评分口径，都和数学老师逐题过了一遍。然后让13个模型重新作答。所有模型都在全新对话里，一样的不联网，不查资料，不调用任何外部工具，只按高考答题标准输出完整过程。还是统一说一下这次的所有模型，claude，deepseek，gemini，minimax，kimi，gpt，qwen，grok，glm，豆包，混元

为了确保最终考场一致性，以Openrouter相同API为主，加上了来自火山引擎的豆包和腾讯的混元进行参与（主要是这两个没有在openrouter上有提供）。同一份Prompt也尽可能的做到了同一个API。并且开了同样的 high thinking模式。评分模式也严格按高考的来。单选只看最终选项，多选全对6分，只对一部分3分，如果错了还会扣分。解答题逐题核对结论，关键推导和证明完整性，只写可推出，证明见上的模型，一律按缺步骤扣分。

话不多说直接看最终成绩。

13个模型对错排行如下

13个模型，平均分居然高达139.4。什么概念？随便拉到一个考场里，全是年级前排的水平。且这次复测最大的发现，真不是谁是第一。是当题面，公式，条件足够干净的时候，模型的最终答案能力，已经接近到没法用客观题区分了。

8道单选，13个模型，全对。3道多选，除了Q11翻了两家，其余全对。3道填空，全对。Q15，Q16，Q17三道解答题，13家全部满分。整张热力图，前17题几乎一片绿。绿到我一度怀疑人生了。。。也人工真实核了一遍。但真的没错，就是绿的。。。那问题来了，既然大家前面都对，148和130之间这18分，到底是丢哪了？从Q11，这是全卷唯一的客观题翻车点。正确答案BCD，而GLM 5.1和Hy3都选了ABCD，多勾了一个A。按高考多选规则，含错选就是0分，6分被直接清零。

如同上次一样，多选题依旧是AI的事故高发区。选项A之前我们也分析了，成立的条件很微妙，看起来也挺对。然后是Q18，解析几何。

大部分模型的最终答案都是对的，椭圆方程对，直线方程对，最小值4√3也对。但是吧，按照阅卷标准去抠过程，毛病就全出来了。面积比是怎么转化成线段关系的，没写。R和P的中心对称关系，没说明。tan∠PQR的表达式从哪来的，也一步跳过去了。

但真把榜单拉开的，还得是可怕的19题压轴题。

这是一道函数新题型，定义了一个集合D(x)，最后要你证明f(x)在(0,+∞)上单调递增。这种题头疼的地方在于，证明链每一环都必须闭合。要先证x>0时f(x)≤0，再证任意正增量d都属于D(x0)，少一环，整个证明就是断的。

13个模型，没有一家在Q19拿到满分。

最好的GPT-5.5，也在最后一问的迭代证明里跳了步，扣2分。GLM 5.1出乎意料的除了证明以外的全做对了Opus 4.8, Deepseek, gemini为首的7个模型因为答案不完整，统一的都被扣了7分。而另外四个模型，也在概述想法或者方向错误上只拿了6分了。打分过程中有个细节我印象深刻。Opus 4.8做到第3问后半段，直接在卷面上承认，这里的严格证明它完成不了。

虽然扣了7分。但我反而感受到了真诚。。。比起那些写一堆显然，同理可证然后糊弄过去的，至少它清楚自己证没证出来。看到了好多模型都出现的幻觉，真实的承认在这一刻显得更有价值。很多模型能猜对结论，能给思路，能把数算对。但感觉说的对和写出一份挑不出毛病的证明，是两件事。高考阅卷从来不看你悟没悟，只看你写没写，以及正不正确。最后放个花絮，上次测完之后，大家很好奇每一个模型运行的时间，所以这次我们也统计下来了，

Grok 4.3整份卷子1分钟做完，快速的拿了全场倒数134分。豆包，Opus, Deepseek等很多也都证明了答案只是时间问题，都会做但就是差那一两分钟。

Qwen 3.7-Max磨了15分钟的分数跟Minimax m3离谱的2分钟，竟然都是138分的并列。

后来理解了，和人类考生一模一样。每个班都有那种刷题贼快的同学，也都有大题永远「会做但写不全」的同学。老师天天追在后面念，步骤分，步骤分。有的成功听进去了持续进步，但有的还是选择安于现状平平静静。AI就走到了现今这阶段，数学能力已经十分顶了，离应试规范还差一口气。区别在于，学生改掉一个毛病要练三年，但模型可能下个版本就改掉了。今年没人能在最终的加强版规则打分下满分。明年我们接着测，还是这套规矩，干净的题面，严格的口径，新的模型。我挺想看看，第一个能把证明链完整闭合的，会是谁。

@ 作者 / 卡尔 & yc星辰