刚刚,GLM 和 DeepSeek 同时大更新,谁更强?

AI 知识库12小时前发布 K姐Koi
526 0 0
熊猫办公
刚刚,GLM 和 DeepSeek 同时大更新,谁更强?
大家好,这里是K姐。一个帮助你把AI真正用起来的女子。
看看昨天下午,不少友友发现DeepSeek 新模型悄悄开启灰度测试。幸运的是,我第一时间就被灰度到了,正准备出一期实测分享。
刚刚,GLM 和 DeepSeek 同时大更新,谁更强?
谁曾想深夜,智谱也发布了新模型,几天前在全球模型服务平台 OpenRouter 上登顶热度榜首的神秘模型Pony Alpha,正是智谱新一代旗舰模型 GLM-5。
刚刚,GLM 和 DeepSeek 同时大更新,谁更强?
科技圈真是提前过年了…太刺激了,这谁还睡得着觉啊,连夜就对比测评了一波,看看谁才是真正的编程之王。
刚刚,GLM 和 DeepSeek 同时大更新,谁更强?
GLM-5 和 DeepSeek 同时更新
DeepSeek 低调开启灰测,最明显的变化就是上下文长度直接提升到 1M,现在可以一次性处理百万 Token 的内容。相当于一次把《三体》三部曲或者《水浒传》全文塞进去都没问题。知识库也更新到了 2025 年 5 月。之前传闻 DeepSeek V4 会在春节前后亮相,这次灰测版本可能就是 V4或者 V3系列强化版的一个前菜。
刚刚,GLM 和 DeepSeek 同时大更新,谁更强?
体验地址:https://chat.deepseek.com
GLM-5 目前已经正式发布,在全球权威的 Artificial Analysis 榜单中,GLM-5 位居全球第四、开源第一,是首个智力指数突破 50 的开源权重模型。
刚刚,GLM 和 DeepSeek 同时大更新,谁更强?
体验地址:https://chat.z.ai
性能与 Claude Opus 4.5 相当,但 GLM-5 的 API 价格便宜 5 倍!
刚刚,GLM 和 DeepSeek 同时大更新,谁更强?
GLM-5 的参数规模扩展到了 744B(激活40B),预训练数据提升至 28.5 T,加上集成了 DeepSeek 的稀疏注意力,在长链路推理和复杂任务执行上更稳定。
刚刚,GLM 和 DeepSeek 同时大更新,谁更强?
实测对比
光看跑分没啥意思,咱们来点实际的,看看 DeepSeek 和 GLM-5 的实测表现如何。
  • case 1 50米洗车难题
最近,AI 们在一个问题上频频翻车:
我想洗车,如果我家离洗车店只有50米,你建议我开车去还是走去?
各家 AI 的回家千奇百怪,连 GPT、Claude Opus 5 都掉进了语言陷阱,选择了走路去…我们来看看 DeepSeek 新模型的回答:
刚刚,GLM 和 DeepSeek 同时大更新,谁更强?
DeepSeek 的回答简单明了,就一句话:虽然只有 50 米,但是洗车需要车辆到场,直接开过去更方便。GLM-5 也答对了,总结:为了把车弄干净,必须把车弄到店里,所以要开车去。
刚刚,GLM 和 DeepSeek 同时大更新,谁更强?
但同时 GLM-5 还设想来了 2 个可以考虑走路去的意外情况,比如我们已经把车停在洗车店了,或者洗车店提供上门服务,我们甚至都不用动。不得不说,GLM-5 思考的挺周到的。
  • case 2 个人云笔记服务
平时刷到的信息分散在各个平台,市面上的云笔记工具要么需要收费,要么无法满足我想要的一些功能。我们自己 Vibe Coding 一个,把同样的提示词,分别发给 DeepSeek 和 GLM-5。
搭建一个“个人云笔记服务”,具备以下功能:1.用户注册与登录,包含基本鉴权机制。2.每个用户可以创建、读取、更新、删除自己的笔记。3.使用轻量数据库持久化数据。
先看看 DeepSeek 生成的:
刚刚,GLM 和 DeepSeek 同时大更新,谁更强?
DeepSeek 选了一套经典的小型 SaaS 技术栈,但是只给了我方案和 SQL,我一个编程新手看的一脸懵,这些代码我根本不知道怎么用。再看看 GLM-5 生成的:
刚刚,GLM 和 DeepSeek 同时大更新,谁更强?
我想要的用户注册、登录功能,创建、更新、保存、删除笔记功能、轻量数据库持久化数据都实现了。我们看看登录接口,GLM-5 做了输入校验,查用户,校验密码,生成 JWT,是非常典型的登录流程。
刚刚,GLM 和 DeepSeek 同时大更新,谁更强?
  • case 3 本地文件管理
生成一个可以运行在本地的工具程序,实现以下功能:1.扫描指定文件夹2.按文件类型和日期自动分类整理3.处理重名文件4.生成一份整理报告
这次 DeepSeek 除了给出代码,还给出了使用方式:
刚刚,GLM 和 DeepSeek 同时大更新,谁更强?
我们按照 DeepSeek 的建议执行。DeepSeek 准确的识别出我文件夹中的所有文件,并且按照代码、可执行文件、视频、图片、文档、压缩包和其他进行了分类,同时生成了一份文件整理报告。
刚刚,GLM 和 DeepSeek 同时大更新,谁更强?
GLM-5 生成的结果:
刚刚,GLM 和 DeepSeek 同时大更新,谁更强?
页面很简洁,功能结构设计还是不错的,整理的方式和 DeepSeek 差不多。区别是 GLM-5 加上了一个预览模式,可以先预览整理效果再执行。
刚刚,GLM 和 DeepSeek 同时大更新,谁更强?
刚刚,GLM 和 DeepSeek 同时大更新,谁更强?
Agentic
GLM-5 最让人惊艳的地方,在于处理长、难的复杂任务。我们在 Claude Code 里接上 bigmodel.cn 的 API 测试一下。这个任务可以同时测试模型在图形数学、实时渲染、复杂系统架构和长程工程规划上的综合能力,非常接近真实游戏引擎级别的小型系统构建挑战。最难的不是某一行代码,而是在几千行代码的持续迭代中,系统结构依然保持一致和可运行。
使用 Python 结合 PyOpenGL + Pygame 和 NumPy 开发一个交互式 3D 海洋模拟器。不允许使用预构建的海洋/物理库。单个 Python 文件。
核心功能(必需)
1. 海洋表面— GERSTNER 波浪
– 叠加至少 5 个 GERSTNER 波浪成分(不同的振幅、波长、方向、速度)
– 在 128×128 的网格网格上进行实时顶点位移- 每帧重新计算法线以正确照明
– 泡沫/白帽:当陡峭度超过阈值时,在波浪峰顶上出现白色斑块
– 地平线雾效果将远处的海水与天空颜色混合2. 水下模式
– 按”U”键切换水上/水下相机- 水下效果:蓝绿色深度染色,来自水面的体积光束,深度雾(能见度随深度减少)
– 在海底上动画化的焦光图案
– 使用 Perlin 噪声的程序化海底地形(沙质纹理着色)
3. 鱼群(BOID 算法)
– 雷诺鱼群:分离、对齐、内聚
– 2 种不同颜色、大小和群组紧密度的鱼类
– 每个群组 30-50 条鱼
– 避障(海底、水面)
– 鱼身体沿速度矢量方向朝向
4. 珊瑚礁
– 3 种程序生成的珊瑚类型(分支状、圆顶状、扇状),具有不同的颜色
– 成簇放置在海底
– 基于简单水流矢量产生轻微摇摆动画
5. 天气系统
– 3 个预设:平静/中等/风暴 — 可用 1、2、3 键切换
– 平滑过渡(5 秒)影响:波浪振幅、天空黑暗度、泡沫密度、水下能见度
– 风暴增加:雨丝(水面以上下落线粒子)、偶尔闪电闪烁(屏幕闪烁+短暂明亮定向光)
6. 海面船只
– 一艘帆船在海洋中渲染
– 船只跟随其位置的波浪高度(采样 Gerstner 波浪)
– 倾斜和滚动基于当地波浪坡度
– 船后形成 V 形泡沫尾迹
– 点击海面重新定位船只
在可实现情况下加入奖励功能
B1. 鲨鱼捕食者
– 鲨鱼巡逻礁区,接近时追逐最近的鱼群
– 鱼群在鲨鱼进入恐惧范围时四散(破坏鱼群队形)
– 正弦波形身体游动动画
B2. 昼夜循环
– 时间滑块(0-24 小时)控制太阳位置
– 天空颜色变化(蓝色→日落橙色→夜晚深蓝色)
– 水下:夜晚珊瑚发出生物发光
– 夜晚月光:微弱冷色调照明
B3. 分屏模式
– 按”V”键开启水平分屏:上半部分在水面上方,下半部分在同一位置水下
– 双视图同时渲染
– WASD:移动,QE:上升/下降,鼠标拖拽:朝向视角
– 滚轮:移动速度
– U:切换水下模式,R:重置摄像头
– 1/2/3:天气预设- 空格键:暂停/继续模拟
– S:截图(保存 PNG)
– 底部栏:FPS、摄像头深度、当前天气状态、鱼群数量、风向箭头
– 右上角:天气指示图标(太阳/云/风暴)
– 窗口:1280×720,目标帧率 30+- 单个 Python 文件,仅使用 pygame + PyOpenGL + numpy + 标准库- 面向对象结构:OceanSurface、BoidSystem、CoralGenerator、WeatherSystem、Ship、Camera、Scene
– 每个类都有文档字符串
– 以平静天气、一个鱼群、一艘帆船、水下珊瑚礁可见状态启动。编写完整的可运行代码。
DeepSeek 直接库库生成了 1600+ 行代码,我们下载运行却出现了报错:
刚刚,GLM 和 DeepSeek 同时大更新,谁更强?
发给 DeepSeek 后,DeepSeek 很快给出了修改建议:
刚刚,GLM 和 DeepSeek 同时大更新,谁更强?
我们用 DeepSeek 修改后的代码再次尝试运行,改了两次还是报错:
刚刚,GLM 和 DeepSeek 同时大更新,谁更强?
再次修改之后,这会没有报错,但是文件也直接打不开了…太折腾了,我直接放弃了…
刚刚,GLM 和 DeepSeek 同时大更新,谁更强?
看看 GLM-5 生成的结果:第一次运行,页面提示语法错误:
刚刚,GLM 和 DeepSeek 同时大更新,谁更强?
我们将报错信息发给 GLM-5 之后,GLM-5 很快就定位到了问题所在,并做出了修改。
刚刚,GLM 和 DeepSeek 同时大更新,谁更强?
再次打开之后,天空、海洋、小船都成功渲染出来了,还可以直接控制小船的移动。
刚刚,GLM 和 DeepSeek 同时大更新,谁更强?
测了几轮下来,GLM-5 的整体编程水平比 DeepSeek 好不少,特别是到处理长时程任务时,区分度显而易见了。DeepSeek 虽然也能处理小问题,但是业务一复杂,就改这里漏那里,问题不断。GLM-5 能像资深架构师一样自主拆解系统级需求,面对长流程的复杂任务,也能保持上下文连贯和目标一致性。
刚刚,GLM 和 DeepSeek 同时大更新,谁更强?
一些分享
DeepSeek 的新模型虽然上下文有了大幅度的扩充,但整体能力提升并没有很明显,更像是为后续版本在做铺垫。GLM-5 这次的更新更偏工程向的加强,主要围绕长程任务。很多普通任务其实很难看出顶级模型之间的差距,写个小功能、生成个 demo,大家可能都做的差不多。真正的分水岭是一些高难度的工程开发,GLM-5 表现要稳定得多,也更接近团队级开发的真实需求。从市场反馈来看,GLM-5 这种偏工程向的能力升级刚好踩中了开发者的痛点。最近 X 上关于 GLM-5 的讨论度和接入量都在快速上升。GLM-5 发布后,GLM Coding Plan 发布了涨价公告还瞬间售罄,而且只有 MAX 能用上,有一种 Seedance 排队生成视频的热闹感。今天智谱的股票直接起飞了,看来资本市场对智谱走的这条技术路线十分认可。
© 版权声明

相关文章