
一个降价75%,一个登顶Hugginface第一和openrouter趋势榜第一

那我立刻马上光速立刻掏出假期整理好大模型噩梦级测试案例1.0版,平时自己测,看别人测,看大模型自己测,都快看腻了,花了点时间归纳了一下,截止到2025年10月9号,主流的单case测试(特指非数据集)主要分为物理模拟、SVG、前端设计、可交互3D四大类,今天我一口气全测完,还要带上DeepSeek V3.2,测评方式还是老规矩啊,公开所有提示语,每个模型跑三次,取效果最好的一次作为最终结果。
先来个常见的物理模拟热热身,
GLM-4.6:
DeepSeek V3.2:
虽然没明说,但GLM-4.6和DeepSeek V3.2不约而同都选择了提供参数调整项,可以重置小球,加速和减速六边形的旋转速度,还可以取消动力,我记得DeepSeek R1那会小球能模拟出重力就已经算厉害的了。GLM-4.6还增加了重力参数,小球大小,甚至还有摩擦力。再来试试看画SVG,

这也是一个成名已久的超绝测试了,GLM-4.6(左侧)基本上元素都画出来了,有板有眼的,就是鹈鹕坐的位置有点低,DeepSeek V3.2(右侧)画出来的鹈鹕实现了脚身分离,方向也反了,车把也没了。我还找到了另外16个模型的跑出来的鹈鹕,有的车把没了,有的鸟没了,有的头反方向了,有的都不在车丧,甚至有的车都没有画出来。

就这个测试它居然还有升级版,让鹈鹕骑自己。。。。

大家有猜到哪个是GLM-4.6做的吗?接着测测UI组件,说实话测天气组件已经测累了,来整点不一样的仪表盘,
GLM-4.6:
DeepSeek V3.2:
提示语里要求的元素两个模型都是实现出来了,比的就是细节,GLM-4.6里的图标当鼠标移动过去的时候能展示出具体的细节,还可以顺利切换主题颜色,以及部分修改用户信息。再再再来点怪的,让它们复刻我天天见的界面,
GLM-4.6:
DeepSeek V3.2:
这case还蛮新的,我是真没想到加粗、斜体、下划线都能实现出来,甚至连sum公式,单元格合并等也做出了接口,不过因为选不了多个单元格,这些功能没有起作用。比起DeepSeek V3.2,GLM-4.6还把居中、偏左偏右,单个单元格的复制黏贴剪切做出来了,照这样下去,Claude提出的Imagine with Claude,通过模型实时生成各种软件原型的理念真不远。最后来个可交互的3D界面,
GLM-4.6:
DeepSeek V3.2:
GLM-4.6同样习惯性提供了更多的参数,可控调整的细节也更多,开3倍速的10000颗粒子迎面冲来的感觉,我感觉自己在穿越时间。最后的最后,来看看GLM-4.6怎么接入最新版本的Claude Code V2.0吧,Claude Code的安装方法没啥变化,还是固定的3条

这个版本最大好处就是新增了检查点,可以回滚到之前的状态,按 Esc 两次或使用 /rewind 可选择恢复代码或者对话。配合GLM-4.6的超低价,我都想不出我要自己写代码的理由。
写在最后写到这,有点想聊聊作为一个每天还要写代码的程序员对AI编程的想法,刚开始是不舍得用,额度一下子就没了,还会埋很多暗坑,过一段时间后,我特别喜欢用AI来写单元测试,或者编程语言的转换,把python转成sql啥的,不需要我去翻文档要导入什么包,安装什么环境,方便很多。再后来,token大白菜了,我会在Cursor上把一些好用的github项目封装成说明书,让AI自己理解自己写,

最近就更过分了,因为我给自己的定位并不是那种遇到什么问题都尝试写个程序去解决的极客man,我都是等要用了临时学两手,立马解决问题。所以编程对我来说更多是个工具,尤其是看到前人留下来的shi山代码,我的心已经比杀鱼十年的还要冷了,但AI编程让我感觉回到了很久很久之前,拿着本C# 就敢去开发的劲了,就好像没有什么是一行代码解决不了,有的话,多写两行就好了。最后最后最后追后,

@ 作者 / 卡尔