实测DeepSeek V4,全网最具有「实用价值」的测评

AI 知识库13小时前发布 开源AI
911 0 0
熊猫办公
「不诱于誉,不恐于诽,率道而行,端然正己。」
DeepSeek V4终于来了。
但是网上的评价褒贬不一,不管怎么说,DeepSeek的调性我是真喜欢。
实事求是的感觉,真好。
实测DeepSeek V4,全网最具有「实用价值」的测评
全网的DeepSeek V4信息铺天盖地,但是有效的实测太少了,很多朋友都在蹲实测,所以临时赶了一篇。
今天就少些无用的介绍,多点有实用价值的测试。
模型介绍
实测DeepSeek V4,全网最具有「实用价值」的测评
一共两个模型,pro和flash,特点我就简要来说了。

  • 都支持100w上下文。
  • pro对标Sonnet,flash主打性价比。
  • Agent能力大幅提高,交付质量接近Opus 4.6非思考模式。(这已经很强了)

这里我得重点说明一下,根据实际应用来看,上下文长度越长,效果不一定越好。
这点在Claude系列模型中感知是很明显的,所以我们自己用的时候,做了一个机制,调节20-40w上下文就会压缩一次,这时候会达到最佳。
具体数值我没有测试,有感兴趣的可以自己测下。
好了不多说废话,直接开始测试。
对比实测

就不跟Claude系列对比了。
我最近测试用Kimi K2.6比较多,K2.6也很强,都是国产开源模型的期间天花板,PK一下吧。
所有的测试都没用skill,都是直出的。
Coding
这个场景大家可能是最感兴趣的,但是一些复杂的编程任务比如直接做个什么应用,不是很直观,直接来做个网页,看看模型的前端品味怎么样。

  • DeepSeek V4
实测DeepSeek V4,全网最具有「实用价值」的测评

  • Kimi K2.6
实测DeepSeek V4,全网最具有「实用价值」的测评
DeepSeek V4的整体UI的品味,还是要弱于Kimi K2.6的,我测了很多次,不止这一组案例。
我这里不是动图,展示不出来,K2.6做出来的动效很高级,页面整体感觉也很棒。
但是Kimi K2.6对UI的整体布局理解就差了些,DeepSeek V4的完整度会更好些。

办公场景

办公三件套,ppt、word、Excel。
问题:搜集DeepSeek V4发布的信息,帮我整理成word文档发给我

  • DeepSeek V4
实测DeepSeek V4,全网最具有「实用价值」的测评
实测DeepSeek V4,全网最具有「实用价值」的测评

  • Kimi K2.6
实测DeepSeek V4,全网最具有「实用价值」的测评
问题:模拟做一个汽车公司的零部件采购清单,以Excel形式发给我

  • DeepSeek V4
实测DeepSeek V4,全网最具有「实用价值」的测评

  • Kimi K2.6
实测DeepSeek V4,全网最具有「实用价值」的测评
问题:搜集DeepSeek V4发布的信息,帮我做一个PPT发给我

  • DeepSeek V4
实测DeepSeek V4,全网最具有「实用价值」的测评

  • Kimi K2.6
实测DeepSeek V4,全网最具有「实用价值」的测评
从Office三件套来看,DeepSeek V4真的是完胜,不需要我过多评价了。
文案写作
这部分我主要是比较看重AI味浓不浓、逻辑性怎么样等等,大家日常场景的一些应用。
直接让这俩模型来续写你正在看的这篇文章。
问题:“实测部分前的内容”,帮我补全这篇文章。

  • DeepSeek V4
做完了发给我的是markdown,如果要用的话,还得再去转成Word,可我前面明明让它做过Word,它居然忘记了。
实测DeepSeek V4,全网最具有「实用价值」的测评
但也不得不说,DeepSeek V4对于问题理解的能力和执行就是强啊。
实测DeepSeek V4,全网最具有「实用价值」的测评

  • Kimi K2.6
K2.6做完了直接把Word文档发来了,这体验就会更好些。
实测DeepSeek V4,全网最具有「实用价值」的测评
但是内容方面确实是有点一言难尽,可能是没get到我要让他做什么。
实测DeepSeek V4,全网最具有「实用价值」的测评
总结
DeepSeek V4的Agent能力提升绝对没有虚标,尤其在Office三件套的逻辑处理和文档生成的完整性上,几乎是降维打击。
但是Coding能力上,我觉得其实也就那么回事,做网页的美感上还是差了些。
具体再难一些的开发任务,我得需要更长时间使用去实测了,今天给出结果是很不负责任的。
日常大家不管用龙虾还是什么其他的Agent,去用一些办公场景,DeepSeek V4绝对是很爽的,主要是它便宜。
实测DeepSeek V4,全网最具有「实用价值」的测评
这价格比Claude可是低太多了,而且上面标着Pro价格还会大幅下降,这证明还有很多的空间。
DeepSeek V4和Kimi K2.6都是中国AI行业的骄傲,今天的对比没有拉踩的意思,这俩模型真是全球开源模型界的两个老大了。
日常的一些场景任务的感觉,大家都清楚了,具体怎么选,自己都用下对比对比。

扫码加入AI交流群获得更多技术支持和交流(请注明自己的职业)
实测DeepSeek V4,全网最具有「实用价值」的测评
关注「开源AI项目落地」公众号与AI时代更靠近一点

© 版权声明

相关文章