DeepSeek V4终于来了。
但是网上的评价褒贬不一,不管怎么说,DeepSeek的调性我是真喜欢。
实事求是的感觉,真好。

今天就少些无用的介绍,多点有实用价值的测试。
模型介绍

- 都支持100w上下文。
- pro对标Sonnet,flash主打性价比。
- Agent能力大幅提高,交付质量接近Opus 4.6非思考模式。(这已经很强了)
这里我得重点说明一下,根据实际应用来看,上下文长度越长,效果不一定越好。
这点在Claude系列模型中感知是很明显的,所以我们自己用的时候,做了一个机制,调节20-40w上下文就会压缩一次,这时候会达到最佳。
具体数值我没有测试,有感兴趣的可以自己测下。
好了不多说废话,直接开始测试。
对比实测
我最近测试用Kimi K2.6比较多,K2.6也很强,都是国产开源模型的期间天花板,PK一下吧。
所有的测试都没用skill,都是直出的。
Coding
- DeepSeek V4

- Kimi K2.6

我这里不是动图,展示不出来,K2.6做出来的动效很高级,页面整体感觉也很棒。
但是Kimi K2.6对UI的整体布局理解就差了些,DeepSeek V4的完整度会更好些。
办公场景
问题:搜集DeepSeek V4发布的信息,帮我整理成word文档发给我
- DeepSeek V4


- Kimi K2.6

- DeepSeek V4

- Kimi K2.6

- DeepSeek V4

- Kimi K2.6

文案写作
直接让这俩模型来续写你正在看的这篇文章。
问题:“实测部分前的内容”,帮我补全这篇文章。
- DeepSeek V4


- Kimi K2.6


但是Coding能力上,我觉得其实也就那么回事,做网页的美感上还是差了些。
具体再难一些的开发任务,我得需要更长时间使用去实测了,今天给出结果是很不负责任的。
日常大家不管用龙虾还是什么其他的Agent,去用一些办公场景,DeepSeek V4绝对是很爽的,主要是它便宜。

DeepSeek V4和Kimi K2.6都是中国AI行业的骄傲,今天的对比没有拉踩的意思,这俩模型真是全球开源模型界的两个老大了。
日常的一些场景任务的感觉,大家都清楚了,具体怎么选,自己都用下对比对比。

© 版权声明
文章版权归作者所有,未经允许请勿转载。
