智谱 GLM-5.1 开源,跑分超 Claude Opus 4.6!深度实测来了

AI 知识库19小时前发布 K姐Koi
682 0 0
熊猫办公
智谱 GLM-5.1 开源,跑分超 Claude Opus 4.6!深度实测来了
大家好,这里是K姐。一个帮助你把AI真正用起来的女子。
GLM-5.1 这么能打?!复杂软件工程超越 Claude Opus 4.6?!上月底,智谱 GLM-5.1 对所有 GLM Coding plan 用户开放。
智谱 GLM-5.1 开源,跑分超 Claude Opus 4.6!深度实测来了
评论区直接变成了自来水现场,对很多程序员来说,GLM 早已是不可或缺的电子牛马。
智谱 GLM-5.1 开源,跑分超 Claude Opus 4.6!深度实测来了
吊了大家十几天胃口,GLM-5.1 的模型参数和测评数据终于正式公布。看完数据我只能说:智谱牛比!GLM-5.1 首次在权威榜单 Artificial Analysis 上对齐 Opus 4.6,还在高难度的 SWE-bench Pro 基准测试里,刷新了全球最佳成绩,超越了行业标杆 Claude Opus 4.6!要知道,这个测试考的可是解决真实复杂工程的能力,含金量极高。
智谱 GLM-5.1 开源,跑分超 Claude Opus 4.6!深度实测来了
同时 GLM-5.1 还包揽 Coding 综合榜单开源第一,国产第一!全球第三。
智谱 GLM-5.1 开源,跑分超 Claude Opus 4.6!深度实测来了
跑分这么顶,社区口碑这么好,这代 GLM-5.1 到底是不是真如传言般拥有国产天花板的潜质?是骡子是马,咱们一起实测看看。
智谱 GLM-5.1 开源,跑分超 Claude Opus 4.6!深度实测来了
GLM-5.1
我在 Claude Code 中实测了 3 个案例,主要测试 GLM-5.1 的长链路执行能力,主要测试 GLM-5.1 在真实业务场景下的长链路执行能力与端到端交付能力。平时找选题很费精力,我们尝试把最近验证过的选题思路做成一个直观的 Web 应用。
  • Case 1 灵感选题器
从0开始开发一个灵感选题器的网页应用需求:当用户输入灵感选题时,全网搜索并调研抖音、小红书上相关讨论的热度、热门角度、常见观点、读者最关心的问题,以及同类内容是否已经同质化,结合热度、竞争情况、内容差异化空间和传播潜力,对该选题值不值得写给出明确判断(评分0-100)。如果该选题值得写,随机生成完整文章策划方案,包含标题建议、文章切入角度、开场hook、正文结构框架、每一部分可展开的核心观点。
这个案例涉及前后端和 AI 调用的复合需求,GLM-5.1 像个高级工程师一样,直接把任务拆成了四个清晰的步骤:
  • 创建目录结构;
  • 编写 Python Flask 后端(app.py);
  • 编写前端 HTML/CSS/JS;
  • 编写配置文件。
在涉及创建文件夹、写入本地文件这类操作前,GLM-5.1 会主动发起授权确认,整体可控性比较强。
智谱 GLM-5.1 开源,跑分超 Claude Opus 4.6!深度实测来了
每完成一步,GLM-5.1 都会实时记录并输出反馈,整体的方向一直很准确。
智谱 GLM-5.1 开源,跑分超 Claude Opus 4.6!深度实测来了
只用了 8 分钟左右,整个项目就构建完成了。
智谱 GLM-5.1 开源,跑分超 Claude Opus 4.6!深度实测来了
GLM-5.1 提出选题分析可以采用更准确的 AI 深度分析,默认选项是 Claude 模型;还考虑到没有 AI 的话,可以使用算法分析。我们让它把配置 AI 切换成 GLM-5.1,并完成配置。GLM-5.1 会自动帮我们调整了 .env 配置文件和接口代码。
智谱 GLM-5.1 开源,跑分超 Claude Opus 4.6!深度实测来了
我们只需要手动在 .env 文件中填入我们的 API key,就可以启动项目啦。前端界面非常简洁。
智谱 GLM-5.1 开源,跑分超 Claude Opus 4.6!深度实测来了
我们运行一下试试,结论非常清晰,前端页面的排版也相当不错。
智谱 GLM-5.1 开源,跑分超 Claude Opus 4.6!深度实测来了
整个过程中,除了需要我们手动填入 API key,其余 100% 都是由 GLM-5.1 自动完成。
  • Case 2 本地 API 管理系统
我们平时可能会尝试、使用各个不同的模型,API 管理就成了问题。有些 API 只在生成的时候可以复制一次,我一般都是发给自己,但找起来特别麻烦,而且不好区分。这次我用 GLM-5.1 尝试开发一个本地运行的 API 管理系统,一站式管理好我所有的 API Key。
从 0 开发一个本地运行的 API 管理系统。要求支持新增、编辑、删除 API 配置,保存 Base URL、API Key、模型名、请求头等信息;支持按服务商分类管理;敏感字段需脱敏展示;支持发起调用测试并展示响应结果;记录调用日志、响应耗时和错误信息;整个系统需可在本地直接运行,并提供完整的启动说明。把整个应用创建到 D:\KJ\【指定文件夹】
面对“本地运行、指定目录落盘、配置管理、调用测试、日志记录、脱敏展示”这样复杂的混合约束,GLM-5.1 依旧是先确定项目骨架,再选择合适的技术路径补充细节。
智谱 GLM-5.1 开源,跑分超 Claude Opus 4.6!深度实测来了
实际生成的应用也是开箱即用,UI 的交互动效都设计的很讲究。

  • Case 3 跨模态深度数据调研
收集过去 12 个月内全球销量排名前 5 的汽车集团发布的重点新车型,按发布时间、定位、价格区间、核心卖点、目标人群和市场策略整理成一份对比报告,最终输出为 Word 文档并保存到 D:\KJ\【指定文件夹】。要求在开始前先明确销量统计口径、新品定义和信息来源标准,报告中需附带信息来源,并单独总结各家新品策略的共同点与差异点。
这个任务的复杂度极高,因为全球前5车企的全部新品信息不可能存在于单一网页中,这需要模型进行海量网页的穿梭检索、信息过滤和交叉验证。
智谱 GLM-5.1 开源,跑分超 Claude Opus 4.6!深度实测来了
GLM-5.1 会主动调用 Web Search,先查证并确认全球汽车集团销量排名和新品车型。
智谱 GLM-5.1 开源,跑分超 Claude Opus 4.6!深度实测来了
在完成复杂的数据搜集和对比分析后,GLM-5.1 继续调用 Python 和 python-docx,自动生成报告脚本,并将结果写入指定路径的 Word 文档。过程中遇到源码编码和语法报错,GLM-5.1 还能自行检测、定位问题并尝试修复,直到继续推进交付。
智谱 GLM-5.1 开源,跑分超 Claude Opus 4.6!深度实测来了
在长达一个多小时、历经数十轮网页检索和成千上万字的信息吞吐后,绝大多数大模型早就宕机了,要么陷入搜索死循环,要么早就把最开始保存为 Word 到指定目录的指令抛之脑后。但 GLM-5.1 的长文本记忆和目标感极其稳定,经过一个半小时的极限抗压,完美展现了它从多步任务规划到、复杂联网检索、逻辑综合、代码编写、本地文件I/O 的全链路能力。
智谱 GLM-5.1 开源,跑分超 Claude Opus 4.6!深度实测来了
我们甚至可以去喝杯咖啡,回来直接验收成品。
智谱 GLM-5.1 开源,跑分超 Claude Opus 4.6!深度实测来了
智谱 GLM-5.1 开源,跑分超 Claude Opus 4.6!深度实测来了
智谱 GLM-5.1 开源,跑分超 Claude Opus 4.6!深度实测来了
智谱 GLM-5.1 开源,跑分超 Claude Opus 4.6!深度实测来了
智谱 GLM-5.1 开源,跑分超 Claude Opus 4.6!深度实测来了
智谱 GLM-5.1 开源,跑分超 Claude Opus 4.6!深度实测来了
智谱 GLM-5.1 开源,跑分超 Claude Opus 4.6!深度实测来了
智谱 GLM-5.1 开源,跑分超 Claude Opus 4.6!深度实测来了
智谱 GLM-5.1 开源,跑分超 Claude Opus 4.6!深度实测来了
智谱 GLM-5.1 开源,跑分超 Claude Opus 4.6!深度实测来了
智谱 GLM-5.1 开源,跑分超 Claude Opus 4.6!深度实测来了
智谱 GLM-5.1 开源,跑分超 Claude Opus 4.6!深度实测来了
智谱 GLM-5.1 开源,跑分超 Claude Opus 4.6!深度实测来了
左右滑动查看更多
智谱 GLM-5.1 开源,跑分超 Claude Opus 4.6!深度实测来了
如何丝滑接入 GLM-5.1
目前,所有的 GLM Coding Plan 用户,都可以使用 GLM-5.1 模型了。配置方法非常简单:我们打开 Claude 所在的文件夹,找到 ~\.claude\setting.json 文件,把配置信息改为:
{“env”: {“ANTHROPIC_BASE_URL”: “https://open.bigmodel.cn/api/anthropic”,”ANTHROPIC_API_KEY”: “你的真实 API KEY”,”ANTHROPIC_DEFAULT_HAIKU_MODEL”: “glm-4.5-air”,”ANTHROPIC_DEFAULT_SONNET_MODEL”: “glm-5.1″,”ANTHROPIC_DEFAULT_OPUS_MODEL”: “glm-5.1”}}
重启 Claude,就可以看到默认模型已经变成了 GLM-5.1。
智谱 GLM-5.1 开源,跑分超 Claude Opus 4.6!深度实测来了
我们还可以输入下列指令查看当前模型信息:
/status
智谱 GLM-5.1 开源,跑分超 Claude Opus 4.6!深度实测来了
如果你一直使用的就是 GLM Coding Plan,也可以输入指令切换到 GLM-5.1 模型:
/model
智谱 GLM-5.1 开源,跑分超 Claude Opus 4.6!深度实测来了
还没有 Coding Plan 的友友们,最近 Coding Plan 套餐一直火爆,建议早上 10 点准点去抢。一共有 3 个档位的套餐,可以按需选择:

  • Lite:入门价,适合小型轻量任务。
  • Pro:5 倍 Lite 用量额度,适合中型任务轻度开发,覆盖多款精选 MCP 工具。
  • Max:20倍 Lite 用量额度,适合中大型任务深度开发,高峰期有资源优先保障。
智谱 GLM-5.1 开源,跑分超 Claude Opus 4.6!深度实测来了
智谱 GLM-5.1 开源,跑分超 Claude Opus 4.6!深度实测来了
一些分享
随着大模型技术从百模大战进入能力深水区,长程任务已经成为检验模型智能的下一个标准。一般的测试其实已经很难感知到国产模型跟海外模型的差距了。唯独在官方 case 中一些具有深度、高难度的场景中,GLM-5.1 自主运行 8 小时、几千字迭代+自审循环,才对 GLM-5.1 跟 GLM-5 的差距有了更具体的感知。GLM-5.1 结合 Claude Code 等工程化 Harness,展现出了跨文件工程架构和端到端项目交付的能力。人工智能的发展路径已经非常清晰:大模型正在从辅助编写代码的自动补全器,进化为能理解需求、规划架构并独立完成工作的虚拟员工。可以预见,未来,自然语言就是最强大的编程语言,而 GLM-5.1 无疑是当下能听懂这门语言的顶尖执行者。属于国产大模型的生产力时代,真的来了。
作者:K姐投稿邮箱:tougao@kseek.ai
© 版权声明

相关文章