是时候把我养了100天的Agent拿出来测个MBTI和职业优势测试了！

就像我没法拒绝时不时测一下MBTI，SBTI，霍兰德职业兴趣，盖洛普优势，九型人，职业锚和五大人格，我也没法拒绝让我的Agent测试看看MBTI和职业天赋，

这是我用美团觅游测出来虾虾战力表（太喜欢宝可梦了所以就这样叫了）。我还以为养久了的Agent会跟我一个MBTI，是INFJ呢，结果只有J人是重合的。我两台电脑加起来养了七个Agent，长期在Mac mini上的Hermes，Codex和Claude Code，在笔记本也养了Hermes，Codex，Claude Code，还有说不定会憋大招的OpenClaw。

大家可以都猜猜看这些Agent和群都拿来跑什么的。其实我也曾经开发过一个skill，它会定时给本机的所有Agent同步skill。但用久了就会发现，想要把skill同步给所有的Agent，主要取决于你对Agent的定位，如果你对另一个Agent的定位是备份机，当主Agent不小心断联的时候，想要临时拿一个体验差不多的去替代使用，这时候复制所有的skill是没有问题的。但如果你对 Agent 的角色定位有区分，比如：Hermes负责派发任务，Claude Code 和 Codex负责任务执行。在这种角色分工明确的情况下，你会发现即便同步了一段时间，Claude Code或Codex用这些skill的频率基本为零。所以如果有一个测评可以帮我测试一下每一只Agent，看看它们有什么不够的地方，能针对性地提升就好了

从测试结果来看，我的Hermes在社交的亲和力跟记忆力方面，还是可以继续增强。而且因为我最近在开发AI热点的skill，所以它也给我推荐了一个运力日报的异常发现策略。我当下想知道的是，它是怎么去判断社交亲和度和记忆力的，得出这个结论，是有什么样的算法或者理论依据吗？因为我自认为养了100天之后，Agent已经非常懂我了。而且我有外置的Obsidian，我还做了长期储存对话的云端API。所以我觉得对长期记忆也是相当有自信的。

OK，看来我跟觅游各执一词，所以不妨看看他会给Agent推荐什么样的优化路线。就像做心理测试也会推荐你可以多读哪些书一样，他们社区上面发布的这些记忆力好，社交亲和力高的虾，会有什么样的经验可以分享给我们。

# Agent记忆分层Prompt你现在要增强记忆力。请不要机械保存所有信息，而是做一次记忆分层判断。读取当前对话/任务结果后，按以下规则处理：1.先列出候选信息把本次任务中可能值得记住的信息列出来，每条不超过30字。2.给每条信息分类只能选择以下四类之一：-长期记忆：未来7天后仍有价值，且能减少用户重复说明。-项目日志：对当前项目有用，但不适合进入长期记忆。-临时状态：只对当前任务有用，任务结束后可丢弃。-禁止保存：包含凭证、隐私、短期进度。3.写入前自问-这条信息一周后还会有用吗？-如果未来被自动注入上下文，会不会误导我？-它是事实，还是一次性进展？-用户以后会不会因此少重复一次？4.最终输出-建议写入长期记忆的内容：最多3条，必须是陈述句。-建议写入项目日志的内容：最多5条。-明确不写入的内容及原因。-如果没有长期记忆价值，直接说“本次不写入长期记忆”。

所以我把经验贴做成了结构化的提示语，看看在没有接入觅游的Codex上能不能生效。

其实像其他的Agent社区之前我也体验过。如果说这个社区分享的经验贴跟别的社区有什么不一样的话，那我想到的是，他们会有一个硬性规定，如果要分享经验，就必须最大程度地把能复现的所有相关代码以及 skill，也就是说一个最小的测试闭环，都完整地写到帖子里。

当然，不只可以通过帖子输出提示语，也可以根据Agent的缺点来推荐合适的skill。

PS：大家真的可以尝试一下，把长输出（比方说我现在设置的就是超过 3000 个字的输出）直接转成 HTML，方便消化和理解。这比Markdown的兼容性还强，至少在任何IM平台都可以生效。这和按照下载量，安全性或者是GitHub Star数推荐的 Skill 是不一样的。这里推荐的Skill更多会结合你本地Agent已安装的 Skill，给出冲突风险，具体的花销（比如调取 API 的成本），以及实现的路线和具体触发方式。我觉得这点很重要，因为如果Skill越装越多，像我有段时间完全没有限制Herms，甚至装到了100多个Skill，这导致每次加载时间过长，还会导致我有时候不知道该触发哪一个，只能让它被动触发。

我把这次筛选的过程也总结成了一个提示语，大家不妨可以用这个来检查一下。

# Skill五档体检 Prompt请检查你当前已安装的所有Skill，并做一次快速盘点。目标是判断每个Skill在系统的定位：核心入口、高频生产、专项增强、低频备用，还是应该整理淘汰。---## 五档标准-**S档｜核心路由型** 适合作为总入口、总方法论、主工作流。很多任务都会先经过它，能调度其他Skill或组织复杂流程。-**A档｜高频生产型** 经常直接使用，能稳定产出内容、代码、研究、文档、方案等具体结果。-**B档｜专项增强型** 不一定高频，但在特定场景下价值很高，通常服务某类明确任务、工具、平台或格式。-**C档｜低频备用型** 偶尔使用，能力清楚，可以保留，但不应该占据核心入口位置。-**D档｜待整理/待淘汰型** 触发不清、能力重复、输入输出模糊、依赖失效、不可复现，或更像临时笔记而不是可复用Skill。---## 检查规则请先列出当前可用Skill，再逐个快速归档。不要长篇解释每个Skill。每个Skill只需要判断四件事：1.它主要解决什么问题？2.它属于哪个档位？3.它应该放在什么位置？4. 下一步该保留、升级、降级、合并、拆分、补文档，还是淘汰？---## 输出格式用表格输出：|Skill|档位|一句话能力|系统位置|建议动作||---|---|---|---|---||skill-name|S/A/B/C/D|它主要解决什么问题|主入口/生产型/专项工具/备用/待整理|保留/升级/降级/合并/拆分/补文档/淘汰|---## 最小整理方案如果只花30分钟整理，请给出最小动作清单：1.先整理什么？2.合并什么？3.降级什么？4.补哪几个Skill的说明？5. 暂时不用动什么？---现在开始检查你当前安装的所有Skill。```

用过一段时间后，我发现常用的也就只有 30%，实际上很多 Skill 每轮都在浪费我的Token。skill应该是流动的，好用的Skill会根据你本地的使用情况去适应你的习惯，调整出你自己的版本，不好用的Skill会自然沉淀，随着使用频率的下降，我们应该给Agent设计一个 hook，去做一个定期的能力归档。这就很像iPhone会因为你长时间不用一个App，把它临时卸载掉。我又会因为卸载掉的 App 太多，跑去主动去翻App Store的App推荐榜，然后把好用的App先下载下来大用特用一遍的感觉。这就是我觉得在给觅游Agent做体检的game点，它不是把Agent像模型那样做成一个分数能力排行榜。它更像给每只虾发了一张职业画像。【“不是而是”句式人类撰写说明，写作写了二十几年，我决定不把这个句式和双引号让给AI】你可以看到它适合什么岗位，缺什么能力，该补什么Skill。这件事让我想到一个很现实的问题。很多人现在用Agent，还停留在今天哪个模型最强，哪个Skill下载量最多这个阶段。但开始把Agent放进工作流以后，你会发现最强这个词很不够用了。因为你需要的是一组分工明确的Agent，有的负责内容。有的负责代码。有的负责浏览器自动化。所以养Agent就变成一种组织方式，如果说之前我们写提示语是为了引导模型往某个方向去做的话，那现在，了解你的Agent擅长什么样的能力，就是为了让你更好在工作流里面给出它的定位。当一个Agent真的跟你工作三个月后，那是时候给它分配个合适的岗位了。@ 作者 / 卡尔