让 300 个 AI 爆肝24小时，我的Token消耗居然才一半……？

大家好啊，我是甲木。这两天，突然发现某个 AI 交流群里，很多朋友都在安利 Kimi Work，@噔噔表示要向所有人安利 Kimi Work。

确实是很好用，关于 Kimi 之前写过很多篇了，这次他们推出了Kimi Work。一款主力面向非程序员、知识工作者的的桌面Agent产品，可以读本地文件、操作浏览器、查数据源、写文档、跑长任务，甚至调动最多 300 个 Agent 分工协作。当然，Kimi Work Beta 版其实在 3 号的时候就推出来了，为什么今天突然想跟大家聊聊。因为这次更新，又加入了个新东西「目标模式」。

— Kimi 目标模式你可能会愣一下。办公就办公，加个「目标模式」是什么意思？这事，得从最近圈里另一个词说起。Vibe Coding 大家玩了快一年了。氛围编程，你不写代码，你跟 AI 说想要什么，它写。现在这股风，从写代码刮到了写一切。有人管它叫 Web Working，我更愿意叫它VibeWorking，氛围办公。

而 VibeWorking 真正的发动机，是最近吵得最凶的一个概念。Loop Engineering。当你不再只是让 AI 回答一个问题，也不只是让 AI 改一段代码。你开始把一个真实工作交给它。比如做一份调研、写一本书、续写一部长篇小说、完成一套基金研究框架。这时候，Prompt 就不够了。你需要的是目标。

📌 本文看点

01从 Loop 到 Goal

02六个真实实测

03办公的未来

WHY GOAL

为什么要有「目标模式」

过去几年，我们围绕 AI 使用方法，诞生了很多词。Prompt Engineering、Context Engineering、Harness Engineering，还有最近很火的 Loop Engineering。

Prompt Engineering 解决的是，你会不会把话说清楚。Context Engineering 解决的是，你会不会把资料喂完整。Harness Engineering 解决的是，你会不会给 AI 设边界、配工具、搭环境。Loop Engineering 解决的是，你能不能让 Agent 一轮轮持续跑下去。卡兹克在他那篇刷屏的文章里有个说法我很认同。这四个 Engineering，背后其实是四门老学科。语言学、信息科学、控制论、管理学。而 Loop 这一层，说是工程，它的核心根本不在工程，在管理。所以，这个词还可以再收紧一点。它真正的核心，不是 Loop。是 Goal，也就是目标。你让 Agent 一直循环没有意义。真正有意义的是，它知道自己要往哪里跑，跑到什么程度算完成，跑不动的时候要留下什么。所以我更愿意把这件事叫Goal Engineering。

Kimi Work 的目标模式，本质上就是给 AI 留一张任务单。这张任务单里，至少要写清五件事：

目标是什么，交付物是什么，怎么验收，不能越过哪些边界，做不完时也要交付什么。

这五件事写清楚，Agent 才有可能从「会回答」变成「会干活」。

WHAT’S NEW

Kimi Work 这次变在哪

Kimi Work 原本的定位，就很适合做这件事。它就是一个坐在你电脑里的项目组。你可以晚上把活交给它。第二天早上回来，看它有没有交付文件、表格、报告、代码、图表，或者至少交付一个清楚的阻塞说明。有没有发现跟我们小时候玩 QQ农场有点类似，给我的感觉就是「早 C 晚 A」。

晚上 Assign 种菜，早上 Check 收菜。

— 早 C 晚 A 工作流示意图当然，也别把它神化。

Kimi Work 现在还是 Beta 阶段，复杂任务里一定会遇到不稳定、需要人工复核、交付物还要继续调整的地方。

但我觉得这正是目标模式值得测的地方。话不多说，究竟都能干啥活，我们直接上实战。

RESEARCH

实战一 · 大学专业正被什么重写

第一个场景，是深度调研。我前段时间正好看了刀哥那篇关于大学本科专业目录变化的文章，里面讲到 AI、交叉学科和产业变化正在反过来影响专业设置。这个选题很适合目标模式。你要看 2022 到 2026 年中国大学本科专业目录和本科专业备案审批结果的变化。还要看哪些专业新增，哪些方向变热，哪些名称背后其实是 AI、数据科学、智能制造、生物医药、新能源、低空经济这些产业变化。

所以我给 Kimi Work 的任务，是让它调研 2022-2026 年中国大学本科专业目录和备案审批结果的变化，主题是：近几年大学专业正在如何被 AI、交叉学科和产业变化重写。要求大而全，数据和内容都要经过验证。这类任务的难点在于，中间路径很不确定。它可能要搜索教育部文件，整理年份，提取专业名称，做分类，交叉验证，再写成一篇普通读者能看懂的分析。如果是普通聊天模式，它可能给你一版文章。但目标模式下，我期待它做的是一套工作流：先确认资料源，再整理专业变化表，再做趋势分类，再写报告，再标注哪些数据可信，哪些还需要人工复核。之后，开了 Agent 多集群模式下，它自己还 kuku 跑了一个多小时，

Kimi Work 多集群执行过程 GIF

最后交回来的东西，说实话超出我预期。

一份完整报告，加上12 个维度的细分研究稿，背后挂了120 条规范格式的参考文献，数据来源标到了教育部目录、备案审批结果、麦可思就业数据这个颗粒度。我随机抽取了几个数据进去做了验证，都是客观真实存在的。这就是 VibeWorking 的典型场景，下达一个目标，然后让 AI 帮你完成一段研究工作。

WRITE A BOOK

实战二 · 一句话写一本书

第二个场景更有意思，之前我看花叔在微信读书上发布了很多关于 AI 概念的白皮书，当然他也借助了 AI 的能力去进行生成。现在正好 Kimi Work 有了「Goals」和多集群功能，我就想看一下它能不能完成这项任务。我让它写一本关于 Loop Engineering 的白皮书。

提示词也很直接：

…prompt

从 Prompt Engineering 开始，演进到 Context Engineering，再到 Harness Engineering，最终到 Loop Engineering。要求它搜索网上所有相关概念和内容，写成一份 10 万字左右的白皮书。如果过程中有问题，需要自己调整。

这个任务跑了两个小时，最后输出了十几万字。成品非常非常非常的牛批。。给大家看下：

白皮书成书过程 GIF

十几万字，11 章，从前言到附录齐活。第 1 章讲 Prompt 时代，第 2 章 Context，第 3 章 Harness，第 4 章 Loop，一层层往上垒。。

而且分为写稿人、审稿人，一个维度一个 Agent 在挑刺，写的、查的、审的，分开。困难在于，它能不能把一个长程项目从目录、章节、正文、补充、修订一路推进下来。目标模式在这里的价值就很清楚。当然，十几万字我没法字字读完，这种长文里难免有重复和注水，真要出版还得人来精修。但作为一个初稿底子，当做内容的调研和查询，其实很足够了。。

FINANCE

实战三 · 对标中证 1000ETF 的基金研究

这个最能看出「边界」的价值。我给它的任务是「围绕中证 1000ETF 和偏股基金筛选，做三套策略的可复现回测」。但我在目标最上面，先钉了一条铁律：

💡 只做研究和回测，不准给任何申购赎回买卖建议，所有结果都是历史数据。

这条边界，它守住了。最后它交了整整一套，7 类交付物全齐，14MB。基金池、回测结果、风格暴露、研报、数据源清单、复现说明，还有 4 张图，净值曲线、回撤曲线、超额收益、风险收益散点。

数据是用 akshare 真拉的，从两万多只基金一路筛到最后。

💡 先把这句记牢：这是三年历史回测，不代表未来，而且高收益对应的是 30% 以上的高波动，更不是荐股。

中证 1000ETF 基准年化大概 11%。它筛出来的综合策略，回测里年化到了 60% 多，夏普从基准的 0.35 提到接近 1.9。数字很扎眼。但我更在意它的严谨。它拿不到的字段，比如基金经理任期，它列了张清单说「这些得人工补」，没瞎编。一个会主动告诉你「这里我不确定、这里我没数据」的 Agent，比一个什么都敢答的，更让人放心。

MORE CASES

其它几个场景

西游记后传我让它续写西游记，5 万字、25 回，文风贴着吴承恩，每写一章都要和前文做一致性检验。后半夜挂着，跑了五个多小时。回来发现它不光写了正文，还自己建了人物档案、世界观、13 条情节线索、29 个伏笔的登记表。

开篇悟空成佛之后那段：

「饮了几口琼浆，却觉无味……如今功成，反倒浑身不自在。」

那个味道，真有点出来了。逃亡小游戏一句话让它做个符文幸存者地牢游戏，3000 多行代码，打开就能玩。

巴菲特芒格 Skills 生成

还可以帮你管理论文文献清单，我给它的指令是：

…prompt

围绕 “LLM-based Agent 与 Context Engineering（2024-2026）” 主题，检索并精读约 100 篇高质量文献，产出一份系统的中文文献综述。

它直接挑出来一份大而全的文献清单供参考。

— 文献列表只要是你的真实工作场景、真实需求，都可以拿来试试。