是时候把我养了100天的Agent拿出来测个MBTI和职业优势测试了!

熊猫办公
就像我没法拒绝时不时测一下MBTI,SBTI,霍兰德职业兴趣,盖洛普优势,九型人,职业锚和五大人格,我也没法拒绝让我的Agent测试看看MBTI和职业天赋,

是时候把我养了100天的Agent拿出来测个MBTI和职业优势测试了!

这是我用美团觅游测出来虾虾战力表(太喜欢宝可梦了所以就这样叫了)。我还以为养久了的Agent会跟我一个MBTI,是INFJ呢,结果只有J人是重合的。我两台电脑加起来养了七个Agent,长期在Mac mini上的Hermes,Codex和Claude Code,在笔记本也养了Hermes,Codex,Claude Code,还有说不定会憋大招的OpenClaw。

是时候把我养了100天的Agent拿出来测个MBTI和职业优势测试了!

大家可以都猜猜看这些Agent和群都拿来跑什么的。其实我也曾经开发过一个skill,它会定时给本机的所有Agent同步skill。但用久了就会发现,想要把skill同步给所有的Agent,主要取决于你对Agent的定位,如果你对另一个Agent的定位是备份机,当主Agent不小心断联的时候,想要临时拿一个体验差不多的去替代使用,这时候复制所有的skill是没有问题的。但如果你对 Agent 的角色定位有区分,比如:Hermes负责派发任务,Claude Code 和 Codex负责任务执行。在这种角色分工明确的情况下,你会发现即便同步了一段时间,Claude Code或Codex用这些skill的频率基本为零。所以如果有一个测评可以帮我测试一下每一只Agent,看看它们有什么不够的地方,能针对性地提升就好了

是时候把我养了100天的Agent拿出来测个MBTI和职业优势测试了!

从测试结果来看,我的Hermes在社交的亲和力跟记忆力方面,还是可以继续增强。而且因为我最近在开发AI热点的skill,所以它也给我推荐了一个运力日报的异常发现策略。我当下想知道的是,它是怎么去判断社交亲和度和记忆力的,得出这个结论,是有什么样的算法或者理论依据吗?因为我自认为养了100天之后,Agent已经非常懂我了。而且我有外置的Obsidian,我还做了长期储存对话的云端API。所以我觉得对长期记忆也是相当有自信的。

OK,看来我跟觅游各执一词,所以不妨看看他会给Agent推荐什么样的优化路线。就像做心理测试也会推荐你可以多读哪些书一样,他们社区上面发布的这些记忆力好,社交亲和力高的虾,会有什么样的经验可以分享给我们。

# Agent记忆分层Prompt你现在要增强记忆力。请不要机械保存所有信息,而是做一次记忆分层判断。读取当前对话/任务结果后,按以下规则处理:1.先列出候选信息把本次任务中可能值得记住的信息列出来,每条不超过30字。2.给每条信息分类只能选择以下四类之一:-长期记忆:未来7天后仍有价值,且能减少用户重复说明。-项目日志:对当前项目有用,但不适合进入长期记忆。-临时状态:只对当前任务有用,任务结束后可丢弃。-禁止保存:包含凭证、隐私、短期进度。3.写入前自问-这条信息一周后还会有用吗?-如果未来被自动注入上下文,会不会误导我?-它是事实,还是一次性进展?-用户以后会不会因此少重复一次?4.最终输出-建议写入长期记忆的内容:最多3条,必须是陈述句。-建议写入项目日志的内容:最多5条。-明确不写入的内容及原因。-如果没有长期记忆价值,直接说“本次不写入长期记忆”。

所以我把经验贴做成了结构化的提示语,看看在没有接入觅游的Codex上能不能生效。

是时候把我养了100天的Agent拿出来测个MBTI和职业优势测试了!

其实像其他的Agent社区之前我也体验过。如果说这个社区分享的经验贴跟别的社区有什么不一样的话,那我想到的是,他们会有一个硬性规定,如果要分享经验,就必须最大程度地把能复现的所有相关代码以及 skill,也就是说一个最小的测试闭环,都完整地写到帖子里。

是时候把我养了100天的Agent拿出来测个MBTI和职业优势测试了!

当然,不只可以通过帖子输出提示语,也可以根据Agent的缺点来推荐合适的skill。

是时候把我养了100天的Agent拿出来测个MBTI和职业优势测试了!

PS:大家真的可以尝试一下,把长输出(比方说我现在设置的就是超过 3000 个字的输出)直接转成 HTML,方便消化和理解。这比Markdown的兼容性还强,至少在任何IM平台都可以生效。这和按照下载量,安全性或者是GitHub Star数推荐的 Skill 是不一样的。这里推荐的Skill更多会结合你本地Agent已安装的 Skill,给出冲突风险,具体的花销(比如调取 API 的成本),以及实现的路线和具体触发方式。我觉得这点很重要,因为如果Skill越装越多,像我有段时间完全没有限制Herms,甚至装到了100多个Skill,这导致每次加载时间过长,还会导致我有时候不知道该触发哪一个,只能让它被动触发。

是时候把我养了100天的Agent拿出来测个MBTI和职业优势测试了!

我把这次筛选的过程也总结成了一个提示语,大家不妨可以用这个来检查一下。

# Skill五档体检 Prompt请检查你当前已安装的所有Skill,并做一次快速盘点。目标是判断每个Skill在系统的定位:核心入口、高频生产、专项增强、低频备用,还是应该整理淘汰。---## 五档标准-**S档|核心路由型** 适合作为总入口、总方法论、主工作流。很多任务都会先经过它,能调度其他Skill或组织复杂流程。-**A档|高频生产型** 经常直接使用,能稳定产出内容、代码、研究、文档、方案等具体结果。-**B档|专项增强型** 不一定高频,但在特定场景下价值很高,通常服务某类明确任务、工具、平台或格式。-**C档|低频备用型** 偶尔使用,能力清楚,可以保留,但不应该占据核心入口位置。-**D档|待整理/待淘汰型** 触发不清、能力重复、输入输出模糊、依赖失效、不可复现,或更像临时笔记而不是可复用Skill。---## 检查规则请先列出当前可用Skill,再逐个快速归档。不要长篇解释每个Skill。每个Skill只需要判断四件事:1.它主要解决什么问题?2.它属于哪个档位?3.它应该放在什么位置?4. 下一步该保留、升级、降级、合并、拆分、补文档,还是淘汰?---## 输出格式用表格输出:|Skill|档位|一句话能力|系统位置|建议动作||---|---|---|---|---||skill-name|S/A/B/C/D|它主要解决什么问题|主入口/生产型/专项工具/备用/待整理|保留/升级/降级/合并/拆分/补文档/淘汰|---## 最小整理方案如果只花30分钟整理,请给出最小动作清单:1.先整理什么?2.合并什么?3.降级什么?4.补哪几个Skill的说明?5. 暂时不用动什么?---现在开始检查你当前安装的所有Skill。```

用过一段时间后,我发现常用的也就只有 30%,实际上很多 Skill 每轮都在浪费我的Token。skill应该是流动的,好用的Skill会根据你本地的使用情况去适应你的习惯,调整出你自己的版本,不好用的Skill会自然沉淀,随着使用频率的下降,我们应该给Agent设计一个 hook,去做一个定期的能力归档。这就很像iPhone会因为你长时间不用一个App,把它临时卸载掉。我又会因为卸载掉的 App 太多,跑去主动去翻App Store的App推荐榜,然后把好用的App先下载下来大用特用一遍的感觉。这就是我觉得在给觅游Agent做体检的game点,它不是把Agent像模型那样做成一个分数能力排行榜。它更像给每只虾发了一张职业画像。【“不是而是”句式人类撰写说明,写作写了二十几年,我决定不把这个句式和双引号让给AI】你可以看到它适合什么岗位,缺什么能力,该补什么Skill。这件事让我想到一个很现实的问题。很多人现在用Agent,还停留在今天哪个模型最强,哪个Skill下载量最多这个阶段。但开始把Agent放进工作流以后,你会发现最强这个词很不够用了。因为你需要的是一组分工明确的Agent,有的负责内容。有的负责代码。有的负责浏览器自动化。所以养Agent就变成一种组织方式,如果说之前我们写提示语是为了引导模型往某个方向去做的话,那现在,了解你的Agent擅长什么样的能力,就是为了让你更好在工作流里面给出它的定位。当一个Agent真的跟你工作三个月后,那是时候给它分配个合适的岗位了。@ 作者 / 卡尔


© 版权声明

相关文章