实测DeepSeek V4，全网最具有「实用价值」的测评

AI 知识库13小时前发布开源AI

911 0 0

「不诱于誉，不恐于诽，率道而行，端然正己。」
DeepSeek V4终于来了。
但是网上的评价褒贬不一，不管怎么说，DeepSeek的调性我是真喜欢。
实事求是的感觉，真好。

全网的DeepSeek V4信息铺天盖地，但是有效的实测太少了，很多朋友都在蹲实测，所以临时赶了一篇。
今天就少些无用的介绍，多点有实用价值的测试。
模型介绍

一共两个模型，pro和flash，特点我就简要来说了。

都支持100w上下文。
pro对标Sonnet，flash主打性价比。
Agent能力大幅提高，交付质量接近Opus 4.6非思考模式。（这已经很强了）

这里我得重点说明一下，根据实际应用来看，上下文长度越长，效果不一定越好。
这点在Claude系列模型中感知是很明显的，所以我们自己用的时候，做了一个机制，调节20-40w上下文就会压缩一次，这时候会达到最佳。
具体数值我没有测试，有感兴趣的可以自己测下。
好了不多说废话，直接开始测试。
对比实测

就不跟Claude系列对比了。
我最近测试用Kimi K2.6比较多，K2.6也很强，都是国产开源模型的期间天花板，PK一下吧。
所有的测试都没用skill，都是直出的。
Coding

这个场景大家可能是最感兴趣的，但是一些复杂的编程任务比如直接做个什么应用，不是很直观，直接来做个网页，看看模型的前端品味怎么样。

DeepSeek V4

Kimi K2.6

DeepSeek V4的整体UI的品味，还是要弱于Kimi K2.6的，我测了很多次，不止这一组案例。
我这里不是动图，展示不出来，K2.6做出来的动效很高级，页面整体感觉也很棒。
但是Kimi K2.6对UI的整体布局理解就差了些，DeepSeek V4的完整度会更好些。

办公场景

办公三件套，ppt、word、Excel。
问题：搜集DeepSeek V4发布的信息，帮我整理成word文档发给我

DeepSeek V4

Kimi K2.6

问题：模拟做一个汽车公司的零部件采购清单，以Excel形式发给我

DeepSeek V4

Kimi K2.6

问题：搜集DeepSeek V4发布的信息，帮我做一个PPT发给我

DeepSeek V4

Kimi K2.6

从Office三件套来看，DeepSeek V4真的是完胜，不需要我过多评价了。
文案写作

这部分我主要是比较看重AI味浓不浓、逻辑性怎么样等等，大家日常场景的一些应用。
直接让这俩模型来续写你正在看的这篇文章。
问题：“实测部分前的内容”，帮我补全这篇文章。

DeepSeek V4

做完了发给我的是markdown，如果要用的话，还得再去转成Word，可我前面明明让它做过Word，它居然忘记了。

但也不得不说，DeepSeek V4对于问题理解的能力和执行就是强啊。

Kimi K2.6

K2.6做完了直接把Word文档发来了，这体验就会更好些。

但是内容方面确实是有点一言难尽，可能是没get到我要让他做什么。

总结

DeepSeek V4的Agent能力提升绝对没有虚标，尤其在Office三件套的逻辑处理和文档生成的完整性上，几乎是降维打击。
但是Coding能力上，我觉得其实也就那么回事，做网页的美感上还是差了些。
具体再难一些的开发任务，我得需要更长时间使用去实测了，今天给出结果是很不负责任的。
日常大家不管用龙虾还是什么其他的Agent，去用一些办公场景，DeepSeek V4绝对是很爽的，主要是它便宜。

这价格比Claude可是低太多了，而且上面标着Pro价格还会大幅下降，这证明还有很多的空间。
DeepSeek V4和Kimi K2.6都是中国AI行业的骄傲，今天的对比没有拉踩的意思，这俩模型真是全球开源模型界的两个老大了。
日常的一些场景任务的感觉，大家都清楚了，具体怎么选，自己都用下对比对比。

扫码加入AI交流群获得更多技术支持和交流（请注明自己的职业）