刚刚，GLM 和 DeepSeek 同时大更新，谁更强？

AI 知识库12小时前发布 K姐Koi

526 0 0

大家好，这里是K姐。一个帮助你把AI真正用起来的女子。

看看昨天下午，不少友友发现DeepSeek 新模型悄悄开启灰度测试。幸运的是，我第一时间就被灰度到了，正准备出一期实测分享。

谁曾想深夜，智谱也发布了新模型，几天前在全球模型服务平台 OpenRouter 上登顶热度榜首的神秘模型Pony Alpha，正是智谱新一代旗舰模型 GLM-5。

科技圈真是提前过年了…太刺激了，这谁还睡得着觉啊，连夜就对比测评了一波，看看谁才是真正的编程之王。

GLM-5 和 DeepSeek 同时更新

DeepSeek 低调开启灰测，最明显的变化就是上下文长度直接提升到 1M，现在可以一次性处理百万 Token 的内容。相当于一次把《三体》三部曲或者《水浒传》全文塞进去都没问题。知识库也更新到了 2025 年 5 月。之前传闻 DeepSeek V4 会在春节前后亮相，这次灰测版本可能就是 V4或者 V3系列强化版的一个前菜。

体验地址：https://chat.deepseek.com

GLM-5 目前已经正式发布，在全球权威的 Artificial Analysis 榜单中，GLM-5 位居全球第四、开源第一，是首个智力指数突破 50 的开源权重模型。

体验地址：https://chat.z.ai

性能与 Claude Opus 4.5 相当，但 GLM-5 的 API 价格便宜 5 倍！

GLM-5 的参数规模扩展到了 744B（激活40B），预训练数据提升至 28.5 T，加上集成了 DeepSeek 的稀疏注意力，在长链路推理和复杂任务执行上更稳定。

实测对比

光看跑分没啥意思，咱们来点实际的，看看 DeepSeek 和 GLM-5 的实测表现如何。

case 1 50米洗车难题

最近，AI 们在一个问题上频频翻车：

我想洗车，如果我家离洗车店只有50米，你建议我开车去还是走去?

各家 AI 的回家千奇百怪，连 GPT、Claude Opus 5 都掉进了语言陷阱，选择了走路去…我们来看看 DeepSeek 新模型的回答：

DeepSeek 的回答简单明了，就一句话：虽然只有 50 米，但是洗车需要车辆到场，直接开过去更方便。GLM-5 也答对了，总结：为了把车弄干净，必须把车弄到店里，所以要开车去。

但同时 GLM-5 还设想来了 2 个可以考虑走路去的意外情况，比如我们已经把车停在洗车店了，或者洗车店提供上门服务，我们甚至都不用动。不得不说，GLM-5 思考的挺周到的。

case 2 个人云笔记服务

平时刷到的信息分散在各个平台，市面上的云笔记工具要么需要收费，要么无法满足我想要的一些功能。我们自己 Vibe Coding 一个，把同样的提示词，分别发给 DeepSeek 和 GLM-5。

搭建一个“个人云笔记服务”，具备以下功能：1.用户注册与登录，包含基本鉴权机制。2.每个用户可以创建、读取、更新、删除自己的笔记。3.使用轻量数据库持久化数据。

先看看 DeepSeek 生成的：

DeepSeek 选了一套经典的小型 SaaS 技术栈，但是只给了我方案和 SQL，我一个编程新手看的一脸懵，这些代码我根本不知道怎么用。再看看 GLM-5 生成的：

我想要的用户注册、登录功能，创建、更新、保存、删除笔记功能、轻量数据库持久化数据都实现了。我们看看登录接口，GLM-5 做了输入校验，查用户，校验密码，生成 JWT，是非常典型的登录流程。

case 3 本地文件管理

生成一个可以运行在本地的工具程序，实现以下功能：1.扫描指定文件夹2.按文件类型和日期自动分类整理3.处理重名文件4.生成一份整理报告

这次 DeepSeek 除了给出代码，还给出了使用方式：

我们按照 DeepSeek 的建议执行。DeepSeek 准确的识别出我文件夹中的所有文件，并且按照代码、可执行文件、视频、图片、文档、压缩包和其他进行了分类，同时生成了一份文件整理报告。

GLM-5 生成的结果：

页面很简洁，功能结构设计还是不错的，整理的方式和 DeepSeek 差不多。区别是 GLM-5 加上了一个预览模式，可以先预览整理效果再执行。

Agentic

GLM-5 最让人惊艳的地方，在于处理长、难的复杂任务。我们在 Claude Code 里接上 bigmodel.cn 的 API 测试一下。这个任务可以同时测试模型在图形数学、实时渲染、复杂系统架构和长程工程规划上的综合能力，非常接近真实游戏引擎级别的小型系统构建挑战。最难的不是某一行代码，而是在几千行代码的持续迭代中，系统结构依然保持一致和可运行。

使用 Python 结合 PyOpenGL + Pygame 和 NumPy 开发一个交互式 3D 海洋模拟器。不允许使用预构建的海洋/物理库。单个 Python 文件。
核心功能（必需）
1. 海洋表面— GERSTNER 波浪
– 叠加至少 5 个 GERSTNER 波浪成分（不同的振幅、波长、方向、速度）
– 在 128×128 的网格网格上进行实时顶点位移- 每帧重新计算法线以正确照明
– 泡沫/白帽：当陡峭度超过阈值时，在波浪峰顶上出现白色斑块
– 地平线雾效果将远处的海水与天空颜色混合2. 水下模式
– 按”U”键切换水上/水下相机- 水下效果：蓝绿色深度染色，来自水面的体积光束，深度雾（能见度随深度减少）
– 在海底上动画化的焦光图案
– 使用 Perlin 噪声的程序化海底地形（沙质纹理着色）
3. 鱼群（BOID 算法）
– 雷诺鱼群：分离、对齐、内聚
– 2 种不同颜色、大小和群组紧密度的鱼类
– 每个群组 30-50 条鱼
– 避障（海底、水面）
– 鱼身体沿速度矢量方向朝向
4. 珊瑚礁
– 3 种程序生成的珊瑚类型（分支状、圆顶状、扇状），具有不同的颜色
– 成簇放置在海底
– 基于简单水流矢量产生轻微摇摆动画
5. 天气系统
– 3 个预设：平静/中等/风暴 — 可用 1、2、3 键切换
– 平滑过渡（5 秒）影响：波浪振幅、天空黑暗度、泡沫密度、水下能见度
– 风暴增加：雨丝（水面以上下落线粒子）、偶尔闪电闪烁（屏幕闪烁+短暂明亮定向光）
6. 海面船只
– 一艘帆船在海洋中渲染
– 船只跟随其位置的波浪高度（采样 Gerstner 波浪）
– 倾斜和滚动基于当地波浪坡度
– 船后形成 V 形泡沫尾迹
– 点击海面重新定位船只
在可实现情况下加入奖励功能
B1. 鲨鱼捕食者
– 鲨鱼巡逻礁区，接近时追逐最近的鱼群
– 鱼群在鲨鱼进入恐惧范围时四散（破坏鱼群队形）
– 正弦波形身体游动动画
B2. 昼夜循环
– 时间滑块（0-24 小时）控制太阳位置
– 天空颜色变化（蓝色→日落橙色→夜晚深蓝色）
– 水下：夜晚珊瑚发出生物发光
– 夜晚月光：微弱冷色调照明
B3. 分屏模式
– 按”V”键开启水平分屏：上半部分在水面上方，下半部分在同一位置水下
– 双视图同时渲染
– WASD：移动，QE：上升/下降，鼠标拖拽：朝向视角
– 滚轮：移动速度
– U：切换水下模式，R：重置摄像头
– 1/2/3：天气预设- 空格键：暂停/继续模拟
– S：截图（保存 PNG）
– 底部栏：FPS、摄像头深度、当前天气状态、鱼群数量、风向箭头
– 右上角：天气指示图标（太阳/云/风暴）
– 窗口：1280×720，目标帧率 30+- 单个 Python 文件，仅使用 pygame + PyOpenGL + numpy + 标准库- 面向对象结构：OceanSurface、BoidSystem、CoralGenerator、WeatherSystem、Ship、Camera、Scene
– 每个类都有文档字符串
– 以平静天气、一个鱼群、一艘帆船、水下珊瑚礁可见状态启动。编写完整的可运行代码。

DeepSeek 直接库库生成了 1600+ 行代码，我们下载运行却出现了报错：

发给 DeepSeek 后，DeepSeek 很快给出了修改建议：

我们用 DeepSeek 修改后的代码再次尝试运行，改了两次还是报错：

再次修改之后，这会没有报错，但是文件也直接打不开了…太折腾了，我直接放弃了…

看看 GLM-5 生成的结果：第一次运行，页面提示语法错误：

我们将报错信息发给 GLM-5 之后，GLM-5 很快就定位到了问题所在，并做出了修改。

再次打开之后，天空、海洋、小船都成功渲染出来了，还可以直接控制小船的移动。

测了几轮下来，GLM-5 的整体编程水平比 DeepSeek 好不少，特别是到处理长时程任务时，区分度显而易见了。DeepSeek 虽然也能处理小问题，但是业务一复杂，就改这里漏那里，问题不断。GLM-5 能像资深架构师一样自主拆解系统级需求，面对长流程的复杂任务，也能保持上下文连贯和目标一致性。

一些分享

DeepSeek 的新模型虽然上下文有了大幅度的扩充，但整体能力提升并没有很明显，更像是为后续版本在做铺垫。GLM-5 这次的更新更偏工程向的加强，主要围绕长程任务。很多普通任务其实很难看出顶级模型之间的差距，写个小功能、生成个 demo，大家可能都做的差不多。真正的分水岭是一些高难度的工程开发，GLM-5 表现要稳定得多，也更接近团队级开发的真实需求。从市场反馈来看，GLM-5 这种偏工程向的能力升级刚好踩中了开发者的痛点。最近 X 上关于 GLM-5 的讨论度和接入量都在快速上升。GLM-5 发布后，GLM Coding Plan 发布了涨价公告还瞬间售罄，而且只有 MAX 能用上，有一种 Seedance 排队生成视频的热闹感。今天智谱的股票直接起飞了，看来资本市场对智谱走的这条技术路线十分认可。