4千万token实测 DeepSeek V4,不简单。。。

AI 知识库14小时前发布
676 0 0
熊猫办公
这是苍何的第 519 篇原创!大家好,我是苍何。说起来,最近模型圈卷得跟疯了一样。一周发了七八个新模型,光最近 24 小时就蹦出来 4 个。MiMo、HY3、GPT-5.5……好家伙,我键盘都没敲热乎,新模型又来了。但说实话,我最期待的还是 DeepSeek V4。毕竟等了这么久。这次 V4 预览版一上线,我第一时间就冲进去,前前后后砸了差不多「4 千万 token」去测。

4千万token实测 DeepSeek V4,不简单。。。

讲真的,测完以后心情有点复杂。有惊喜,也有遗憾。但最大的感受是:「DeepSeek 这波,格局不一样了。」当时 Wesight 的停更,一度让我很痛苦,我用 DeepSeek V4 进行了迭代,现在他是一个可以搭载你本地 Claude Code、Codex 迭代 Agent 了。

4千万token实测 DeepSeek V4,不简单。。。

并新增 CC 和 Codex 引擎,配合原先的 Openclaw 引擎,现在 Wesight 是个多引擎驱动的成熟系统了,你只要安装 Wesight,其余的都一键配置好。

4千万token实测 DeepSeek V4,不简单。。。

无论你的 Claude Code 配置的是什么模型,在 Wesight 中使用变得如此简单。

4千万token实测 DeepSeek V4,不简单。。。

我让 Wesight 中的 Codex 给 DeepSeek V4 做了一次总结,大家可以先过目一下:

4千万token实测 DeepSeek V4,不简单。。。

两个版本,定位很清晰V4 分了两个版本:「V4-Pro」:1.6T 总参数,49B 激活,1M 上下文。这是旗舰,对标顶级闭源模型。「V4-Flash」:284B 总参数,13B 激活,同样 1M 上下文。主打便宜和快。

4千万token实测 DeepSeek V4,不简单。。。

我拿到 API 的第一件事,就是用长上下文测它的极限。毕竟 DeepSeek 这次最核心的一个变化,就是「1M 上下文直接变成标配」。以前 1M 上下文是高配、是噱头,很多模型标了但其实根本用不满。但 V4 不一样,它从底层架构就围绕长上下文设计。架构变化很大,不是小打小闹这次 V4 的架构改动,说实话挺激进的。先说注意力机制。V4 搞了个 Hybrid Attention,把 CSA(Compressed Sparse Attention)和 HCA(Heavily Compressed Attention)两种注意力层交错着用。一个管长距离依赖,一个管超长压缩。相当于给模型装了两套眼睛,近处看得清,远处也不模糊。

4千万token实测 DeepSeek V4,不简单。。。

优化器也从 AdamW 换成了「Muon」,收敛更快更稳,再加上流形约束残差连接让参数调度更灵活,这波架构升级诚意很足。这些架构改动,我实测下来最直接的感受就是:「长文本的连贯性确实好了很多。」我喂了一个接近 90 万 token 的代码库进去,让它帮我做全局重构。V3.2 干到一半就开始忘事,变量名对不上,函数引用乱飞。V4-Pro 几乎全程在线,跨越几十万 token 还能记住我之前定的命名规范。Coding 能力,有进步我先是做了前端审美能力的测试,还是有显著的增强,比如这个一句简单提示词生成的个人博客网站。

4千万token实测 DeepSeek V4,不简单。。。

重新优化了下 WeSight 的登录,也是科技感拉满。

4千万token实测 DeepSeek V4,不简单。。。

先行者联盟群里的杨律师同样用 V4 做出来的应用,效果也还不错。

4千万token实测 DeepSeek V4,不简单。。。

前端审美这块,V 4 确实比 V 3.2 强了不少。但说实话,之前用 GLM 5.1 搞 Wesight 的时候,出来的效果也挺能打,并没有拉开明显差距。不过说实话,Demo 和工程代码是两码事。前端页面一行提示词就能出效果。但 Wesight 涉及 Electron 构建、多引擎调度、Node 原生模块编译这些,模块间耦合度高,对模型的工程理解力要求完全不在一个量级。在这个场景下,V 4 开始有点兜不住了。比如下面这个构建报错:

4千万token实测 DeepSeek V4,不简单。。。

在构建 electron 的时候,已经犯过的一次错还是会接着犯。

4千万token实测 DeepSeek V4,不简单。。。

这里有个很明显的对比:同样是 Wesight 的 Electron 构建问题,GLM 5.1 基本一轮就能定位到根因,改了就不复发。V4 是改了犯、犯了改,同一个配置项反复横跳。这说明差距不在语法层面,在工程上下文的追踪深度上。

4千万token实测 DeepSeek V4,不简单。。。

在 Wesight 的 Codex 面板,调试了好几次,也没修复这个 bug,始终无法回复,硬是楞在那里。

4千万token实测 DeepSeek V4,不简单。。。

调试了好几次,也没修复这个 bug,始终无法回复,硬是楞在那里。我判断是 V 4 在遇到自己不熟悉的错误时,倾向于停止行动而非尝试替代方案,这在 Agent 场景下是个硬伤。还有个更头疼的:我发现此时长时任务跑到一半,它会自己停下。不是报错,也不是超时,就是单纯中断不继续了。你没法挂后台让它跑,只能在旁边盯着催。说实话,这在实际工程中有点难受。

4千万token实测 DeepSeek V4,不简单。。。

最后没办法,我还是切换回 GLM 5.1 帮一次就解决好了。(毕竟刚整的 coding plan 还是很香的。)

4千万token实测 DeepSeek V4,不简单。。。

处理好之后,去 Wesight 中使用就能看到 codex 正常回答了。

4千万token实测 DeepSeek V4,不简单。。。

我看了下在 Code Arena 的测试中,DeepSeek V4 Pro 相较于 V3.2 进步很大,但还次于 GLM 5.1 和 Kimi K2.6。和我的测试结果相差不大。

4千万token实测 DeepSeek V4,不简单。。。

如果你想要国产模型进行复杂的 Coding 任务,当下 DeepSeek V4 Pro 还无法达到领先的要求,相比较 GLM 5.1 的 Agent Coding 能力表现会更好些。价格方面,我本次测试任务一共花费近 50 吧,对比 Coding Plan 来说,还是贵了。毕竟我还没用 1 亿 token 呢。

4千万token实测 DeepSeek V4,不简单。。。

Agent 能力,进步显著但还有坑DeepSeek 这次在 Agent 上下了不少功夫。官方直接说了:V4-Pro 已经是公司内部默认的编码模型了。内部评测反馈是,「体验优于 Sonnet 4.5,交付质量接近 Opus 4.6 非思考模式」

4千万token实测 DeepSeek V4,不简单。。。

这个评价不低。Sonnet 4.5 和 Opus 4.6 什么水平,大家心里都有数。我实测下来,用 V4-Pro + Claude Code 写代码,简单和中等难度的任务确实很流畅。代码生成的风格偏实战,不会过度设计,这在 Agentic Coding 场景下反而是优点。但有几个坑我也得说。第一个坑:「本地 skill 调用不灵敏」。我本地配了一些 skill 和 Cli,GLM-5.1、Kimi K 2.6 都能正常识别并调用,但 V4 有时候需要我明确提示才去调,不够主动。

4千万token实测 DeepSeek V4,不简单。。。

我分析下来,V4 的问题不是不会调 skill,是「判断该不该调的决策不够果断」。同样一个 prompt,GLM 5.1 和 Kimi 2.6 能立刻识别出「这该用那个 tool 了」,V4 会犹豫,等你再 push 一下才动。第二个坑:「复杂约束下的理解力」。我给项目做了 spec 约束。比如提交 GitHub 前必须过一遍 commit 自检,这是 Wesight 开发规范里的硬要求。结果 V4 直接把自检跳过了,代码就往 GitHub 上推。说实话,这个 bug 比前面的构建报错更致命。构建报错至少你能看到,修就行了。但偷偷跳过约束,你要是不盯着完全不知道它漏了哪一步。这在团队协作场景里基本是一票否决级的风险。同样一份 spec 丢给 GLM 5.1,按 checklist 一步不落走完才提交,稳得一匹。这些场景在实际工程中挺常见的。V4 在这些地方的表现,跟 Opus 4.6 还是有一定差距。不过话说回来,这毕竟是预览版。DeepSeek 也坦诚说了,和 Opus 4.6 思考模式存在差距。这种诚实我反而挺认可的。推理和知识,可圈可点推理这块,V4-Pro 在数学、STEM、竞赛型代码上,超越了所有已公开评测的开源模型,跟世界顶级闭源模型打平。世界知识更是猛。在知识评测中大幅领先其他开源模型,只比 Gemini 3.1 Pro 稍逊一丢丢。我用一些非常冷门的领域知识去测,比如某些小众编程语言的特性、特定年份的学术论文细节,V4-Pro 的准确率明显比 V3.2 高了一个档次。比如这个经典的洗车问题,V4-Pro 的回答如下:

4千万token实测 DeepSeek V4,不简单。。。

还有杨律师的这个 demo,粒子的分布、运动,ds 是用数学运算搞的,推理能力不错。

4千万token实测 DeepSeek V4,不简单。。。

但有一个点要注意:V4 目前「还不是多模态模型」。纯文本。虽然有传言说内部已经做了多模态相关工作,但官方明确表示暂时不会放出来,可能得等到 V4.5 或者 V5.0。写作能力,风格化不错我发现基于 DeepSeek V4 强大的上下文,配合 Obsidian 知识库,用来写作,效果也还不错。甚至,这类的文章都不需要 Rag 了,他学习语言风格学的很不错。和 Claude Opus 4.6 有一点点差距,但是好过 4.7 的。如果你给的素材足够丰富,他的仿写风格味道越对味。

4千万token实测 DeepSeek V4,不简单。。。

价格,涨了但依然良心

模型
输入
输出
V4-Pro
12 元/百万 token
24 元/百万 token
V4-Flash
1 元/百万 token
2 元/百万 token
4千万token实测 DeepSeek V4,不简单。。。

相比 V3 确实涨了。但反过来想,V4-Pro 参数量 1.6T,是 V3.2 的将近两倍半。参数大了,能力上去了,价格涨一点也合理。横向对比海外:Claude Opus 4.7 输入、输出25,GPT-5.5 输入、输出30。国产模型整体依然便宜「60%」左右。而且这个价格还有下行空间。据透露,下半年华为昇腾 950 超节点批量上市后,V4-Pro 的定价预计会大幅下调。所以现在这个价格,更像是「产能不够,先用价格控一下流量」。最让我感慨的,是国产化的决心读 V4 的技术报告,我发现一个细节。他们引入了「MXFP4」,在后训练和推理体系里用上了。这意味着可以适配国产卡,华为昇腾、寒武纪、壁仞都能跑,降低对 NVIDIA FP8 生态的绑定。还有「TileLang」。底层 kernel 不再完全靠 CUDA 写,而是用更高层级的 DSL 描述计算,再编译到不同硬件上。迁移成本大大降低。「MegaMoE」融合内核也是专门为减少专家并行通信等待设计的,已经在华为昇腾上跑通了。这些操作,说白了就不是单纯为了刷榜。是奔着让模型能在国产硬件上真正用起来去的。你可以说 V4 在 Agent 上还有 bug,可以说它没有多模态有点遗憾。但你不得不承认,「在 AI 国产化这条路上,DeepSeek 走得比谁都扎实。」总结一下DeepSeek V4 不是一个让你「卧槽牛逼」的模型。没有碾压式的领先,没有革命性的新功能。但它是一个让我「嗯,方向对了」的模型。1M 上下文标配、Agent 能力大幅提升、推理和知识逼近顶级闭源、底层架构全面拥抱国产化。每一点都在为未来铺路。我给 V4 的一句话评价:「V3 是 DeepSeek 的成人礼,V4 是 DeepSeek 的宣言书。」4 千万 token 测下来,我觉得值。最后说一句大实话:如果你主攻复杂工程开发、重度依赖 Agent Coding,现阶段要用国产模型的话, GLM 5.1 还是更稳的选择。但如果你做长文本分析、知识问答、风格化写作,V4 绝对值得一试。你试了 DeepSeek V4 吗?感觉跟 V3 比提升大不大?评论区聊聊。


以上,我是苍何。如果觉得有用,点个「赞」和「在看」支持一下。也可以转发给在用 DeepSeek 的朋友,看看他们的体验跟你一不一样。参考资料:1、DeepSeek-V4 官方发文:
https://mp.weixin.qq.com/s/8bxXqS2R8Fx5-1TLDBiEDg?scene=1&click_id=92、DeepSeek-V4 技术报告 PDF
https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf3、赛博禅心公众号:
https://mp.weixin.qq.com/s/mjaBklBlAhUF4AXvVgMo1A4、卡兹克公众号:
https://mp.weixin.qq.com/s/HBh2sRbJwDPB1L0lZ6nzHg5、DeepSeek API 文档:
https://api-docs.deepseek.com/zh-cn/guides/coding_agents
© 版权声明

相关文章