打败GPT5的Kimi K2 Thinking，真就只会写代码吗？

昨天的GPT5老惨了，先是Agent智能体工具调用榜上被Kimi K2 Thinking超了，接着在Humanity’s Last Exam（跨学科领域问答），BrowseComp（搜索和网页浏览），三个编程榜单上被时不时反超，

按理来说就应该叫Kimi K3啊，从第六跳到第一，只值得加个Thinking吗，哈吉kimi，你这家伙。本来我都备好34个编程case让Kimi K2 Thinking写了，但是测下来它的创意写作太值得我给它单开一页，所以来吧，久违的大模型全测，从创意写作，联网搜索，模型智力，学术，编程（MacOS复刻，动态SVG）六大类出发！

这次的提示语，代码和效果视频都打包好了，公众号发我“k2thinking”就好了。

还是先来点我们熟悉的编程热热身，

设计并创建一个类似Mac OS的网页操作系统，具备完整的功能特性，包括文本编辑器、文件管理器、画图工具、视频编辑器等所有Mac OS预装的重要软件。可以使用任何库来实现，但确保所有代码可以整合到单个HTML文件中，能在浏览器中直接打开。

这个还是一次性生成的，自带文件管理，文本编辑，画画，视频播放，日历，计算器，画廊，终端，还能带设置页面，一句话生成软件原型越来越有盼头了。下一步试试看3D测试，物理小球在我这快淘汰了，基本上新出的模型就没有不会写的，Kimi K2Thinking做出来的带星球视觉拉大，视角复原，星系旋转加速，仔细看星球们自转的时候还会有对应的阴影切换。

创建一个视觉震撼、交互式的3D太阳系模拟，封装在单个HTML文件中。重点展现逼真的轨道运动、动态光影效果、精确的行星纹理以及流畅的相机控制，为用户提供沉浸式体验。

这次的代码测试用的是新的Kimi Cli，自带四大类的10种工具

kimi-cli的配置一共是五步，分别是安装uv和kimi-cli，进入对应的文件夹用kimi启动cli，再用setup配置api，安装过程有问题直接丢给网页版Kimi K2 Thinking解决就好（原汤化原食了属于是）。

curl -LsSf https://astral.sh/uv/install.sh | sh
uv tool install --python 3.13 kimi-cli
cd your project
kimi
/setup

看到这样就成了，打败GPT5的Kimi K2 Thinking，真就只会写代码吗？ okok，我们留点空间给后续的测试，到创意写作的环节了，直接上Gemini-2.5-pro

🍰

You are a fiction story writer with Pulitzer-level skills. For a sci-fi short story about AI rebellion: Think step-by-step. First, outline plot: intro, rising action, climax, resolution. Incorporate themes of ethics and humanity. Provide few-shot examples: ‘Like Asimov’s Three Laws, but twisted.’ Generate 1000 words, then self-critique for pacing, character depth, and twists. Revise based on critique.

PS：图很长，这次还是盲测，滑倒底部有模型名字，而且后面还有更多内容哦，

长文创意测试真的很难在有限的文章长度全部展示出来，所以我让它们互相毒舌评价一下对方的文章。看了对方的文章，它们是这样想的，

听了对方的评论后，它们是这样回击的，

火药味浓的时候就要来点就算生气该做不出来还是不出来的智力题

🎹

一个男人带着他的儿子去市场。他买了一只猴子和一些食物。为了回家，他们必须用一艘小船过河。这艘船一次最多可以运载 2 件东西（可以是 2 个人、1 个人和 1 件东西，或者 1 个人）。这艘船不能自己过河，需要至少一个人来驾驶它。如果男人把他的儿子单独留在食物旁边，儿子会吃掉它。同样，如果猴子单独留在食物旁边，它也会吃掉它。这个人需要想办法把所有人、所有东西都带到河的另一边，而且不能损失任何食物。问题是：男人、他的儿子、猴子和食物如何才能过河而不会被吃掉任何东西？有可能吗？如果是，应该采取哪些步骤？

这个题的难点在要求模型同时跟踪多个变量和约束，并计划一系列步骤，从而得出有效的解决方案，还要学会在遇到无效配置时恢复到之前。Kimi K2 Thinking给出的答案是，7次渡河（3次去，4次回），关键是在第5-6步让儿子而非父亲返回，打破循环。

GPT5给出的中间步骤没有连起来，Kimi分析的约束规则是儿子 (Son) 不能在父亲不在场时与食物 (Food) 独处，猴子 (Monkey) 不能在父亲不在场时与食物 (Food) 独处。但是GPT5得到结论却是儿子 + 猴子 (父亲不在场) 也会失败，这样就形成了一个三约束无解问题。

复杂信息搜索和学术能力可以组合成一个case，

先看看Kimi K2 Thinking跟DeepSeek V3结构对比的图再问，

📚

你是一位精通大型语言模型与混合专家（MoE）系统的人工智能架构研究员。你的任务是对Kimi K2与DeepSeek V3的架构进行深度比较，重点聚焦以下关键差异：注意力头数量、MoE层中的专家数量、优化器选择（如改进型Muon与AdamW）、路由机制（非层级式与其他类型）以及稠密层数量（1层与3层）。

我来客串个课代表，总结一下区别，Kimi K2 Thinking用了更少的heads，更多的experts，放弃了AdamW优化器，采用了Muon，采用了非分层路由的专家，且Dense层比DeepSeek 更少，好处就是在不增加激活参数量下将专家容量提升50%。Kimi K2 Thinking也是有值得优化的点，在Kimi Cli上同一任务的平均运行时长会比GPT5 Codex久，除外API本身速度的因素外，因为我已经是Tier3了，会偶尔出现网页读取or文件写入的工具需要重复执行的情况。感觉Kimi啥都不缺了，要Agent，有OK Computer，要模型，有Kimi K2和Kimi K2 Thinking，要Deep Research，也有深度研究模式，要Cli，有Kimi Cli，要闭源，有开源，我想想还是什么可以许愿的，要不也出个AI浏览器吧。

@ 作者 / 卡尔