智谱 GLM-5.1 开源，跑分超 Claude Opus 4.6！深度实测来了

AI 知识库2个月前发布 K姐Koi

3,062 0 0

智谱 GLM-5.1 开源，跑分超 Claude Opus 4.6！深度实测来了

大家好，这里是K姐。一个帮助你把AI真正用起来的女子。

GLM-5.1 这么能打？！复杂软件工程超越 Claude Opus 4.6？！上月底，智谱 GLM-5.1 对所有 GLM Coding plan 用户开放。

评论区直接变成了自来水现场，对很多程序员来说，GLM 早已是不可或缺的电子牛马。

吊了大家十几天胃口，GLM-5.1 的模型参数和测评数据终于正式公布。看完数据我只能说：智谱牛比！GLM-5.1 首次在权威榜单 Artificial Analysis 上对齐 Opus 4.6，还在高难度的 SWE-bench Pro 基准测试里，刷新了全球最佳成绩，超越了行业标杆 Claude Opus 4.6！要知道，这个测试考的可是解决真实复杂工程的能力，含金量极高。

同时 GLM-5.1 还包揽 Coding 综合榜单开源第一，国产第一！全球第三。

跑分这么顶，社区口碑这么好，这代 GLM-5.1 到底是不是真如传言般拥有国产天花板的潜质？是骡子是马，咱们一起实测看看。

GLM-5.1

我在 Claude Code 中实测了 3 个案例，主要测试 GLM-5.1 的长链路执行能力，主要测试 GLM-5.1 在真实业务场景下的长链路执行能力与端到端交付能力。平时找选题很费精力，我们尝试把最近验证过的选题思路做成一个直观的 Web 应用。

Case 1 灵感选题器

从0开始开发一个灵感选题器的网页应用需求：当用户输入灵感选题时，全网搜索并调研抖音、小红书上相关讨论的热度、热门角度、常见观点、读者最关心的问题，以及同类内容是否已经同质化，结合热度、竞争情况、内容差异化空间和传播潜力，对该选题值不值得写给出明确判断（评分0-100）。如果该选题值得写，随机生成完整文章策划方案，包含标题建议、文章切入角度、开场hook、正文结构框架、每一部分可展开的核心观点。

这个案例涉及前后端和 AI 调用的复合需求，GLM-5.1 像个高级工程师一样，直接把任务拆成了四个清晰的步骤：

创建目录结构；
编写 Python Flask 后端（app.py）；
编写前端 HTML/CSS/JS；
编写配置文件。

在涉及创建文件夹、写入本地文件这类操作前，GLM-5.1 会主动发起授权确认，整体可控性比较强。

每完成一步，GLM-5.1 都会实时记录并输出反馈，整体的方向一直很准确。

只用了 8 分钟左右，整个项目就构建完成了。

GLM-5.1 提出选题分析可以采用更准确的 AI 深度分析，默认选项是 Claude 模型；还考虑到没有 AI 的话，可以使用算法分析。我们让它把配置 AI 切换成 GLM-5.1，并完成配置。GLM-5.1 会自动帮我们调整了 .env 配置文件和接口代码。

我们只需要手动在 .env 文件中填入我们的 API key，就可以启动项目啦。前端界面非常简洁。

我们运行一下试试，结论非常清晰，前端页面的排版也相当不错。

整个过程中，除了需要我们手动填入 API key，其余 100% 都是由 GLM-5.1 自动完成。

Case 2 本地 API 管理系统

我们平时可能会尝试、使用各个不同的模型，API 管理就成了问题。有些 API 只在生成的时候可以复制一次，我一般都是发给自己，但找起来特别麻烦，而且不好区分。这次我用 GLM-5.1 尝试开发一个本地运行的 API 管理系统，一站式管理好我所有的 API Key。

从 0 开发一个本地运行的 API 管理系统。要求支持新增、编辑、删除 API 配置，保存 Base URL、API Key、模型名、请求头等信息；支持按服务商分类管理；敏感字段需脱敏展示；支持发起调用测试并展示响应结果；记录调用日志、响应耗时和错误信息；整个系统需可在本地直接运行，并提供完整的启动说明。把整个应用创建到 D:\KJ\【指定文件夹】

面对“本地运行、指定目录落盘、配置管理、调用测试、日志记录、脱敏展示”这样复杂的混合约束，GLM-5.1 依旧是先确定项目骨架，再选择合适的技术路径补充细节。

实际生成的应用也是开箱即用，UI 的交互动效都设计的很讲究。

Case 3 跨模态深度数据调研

收集过去 12 个月内全球销量排名前 5 的汽车集团发布的重点新车型，按发布时间、定位、价格区间、核心卖点、目标人群和市场策略整理成一份对比报告，最终输出为 Word 文档并保存到 D:\KJ\【指定文件夹】。要求在开始前先明确销量统计口径、新品定义和信息来源标准，报告中需附带信息来源，并单独总结各家新品策略的共同点与差异点。

这个任务的复杂度极高，因为全球前5车企的全部新品信息不可能存在于单一网页中，这需要模型进行海量网页的穿梭检索、信息过滤和交叉验证。

GLM-5.1 会主动调用 Web Search，先查证并确认全球汽车集团销量排名和新品车型。

在完成复杂的数据搜集和对比分析后，GLM-5.1 继续调用 Python 和 python-docx，自动生成报告脚本，并将结果写入指定路径的 Word 文档。过程中遇到源码编码和语法报错，GLM-5.1 还能自行检测、定位问题并尝试修复，直到继续推进交付。

在长达一个多小时、历经数十轮网页检索和成千上万字的信息吞吐后，绝大多数大模型早就宕机了，要么陷入搜索死循环，要么早就把最开始保存为 Word 到指定目录的指令抛之脑后。但 GLM-5.1 的长文本记忆和目标感极其稳定，经过一个半小时的极限抗压，完美展现了它从多步任务规划到、复杂联网检索、逻辑综合、代码编写、本地文件I/O 的全链路能力。

我们甚至可以去喝杯咖啡，回来直接验收成品。

左右滑动查看更多

如何丝滑接入 GLM-5.1

目前，所有的 GLM Coding Plan 用户，都可以使用 GLM-5.1 模型了。配置方法非常简单：我们打开 Claude 所在的文件夹，找到 ~\.claude\setting.json 文件，把配置信息改为：

{“env”: {“ANTHROPIC_BASE_URL”: “https://open.bigmodel.cn/api/anthropic”,”ANTHROPIC_API_KEY”: “你的真实 API KEY”,”ANTHROPIC_DEFAULT_HAIKU_MODEL”: “glm-4.5-air”,”ANTHROPIC_DEFAULT_SONNET_MODEL”: “glm-5.1″,”ANTHROPIC_DEFAULT_OPUS_MODEL”: “glm-5.1”}}

重启 Claude，就可以看到默认模型已经变成了 GLM-5.1。

我们还可以输入下列指令查看当前模型信息：

/status

如果你一直使用的就是 GLM Coding Plan，也可以输入指令切换到 GLM-5.1 模型：

/model

还没有 Coding Plan 的友友们，最近 Coding Plan 套餐一直火爆，建议早上 10 点准点去抢。一共有 3 个档位的套餐，可以按需选择：

Lite：入门价，适合小型轻量任务。
Pro：5 倍 Lite 用量额度，适合中型任务轻度开发，覆盖多款精选 MCP 工具。
Max：20倍 Lite 用量额度，适合中大型任务深度开发，高峰期有资源优先保障。

一些分享

随着大模型技术从百模大战进入能力深水区，长程任务已经成为检验模型智能的下一个标准。一般的测试其实已经很难感知到国产模型跟海外模型的差距了。唯独在官方 case 中一些具有深度、高难度的场景中，GLM-5.1 自主运行 8 小时、几千字迭代+自审循环，才对 GLM-5.1 跟 GLM-5 的差距有了更具体的感知。GLM-5.1 结合 Claude Code 等工程化 Harness，展现出了跨文件工程架构和端到端项目交付的能力。人工智能的发展路径已经非常清晰：大模型正在从辅助编写代码的自动补全器，进化为能理解需求、规划架构并独立完成工作的虚拟员工。可以预见，未来，自然语言就是最强大的编程语言，而 GLM-5.1 无疑是当下能听懂这门语言的顶尖执行者。属于国产大模型的生产力时代，真的来了。

作者：K姐投稿邮箱：tougao@kseek.ai