新出的操作回放功能Record & Replay是真好玩,当时我第一反应是,这不就是RPA吗,区别应该就是换成AI写步骤了,但测完之后,发现完全不是一回事。 所以就有了今天这篇文章,讲讲它是怎么把我两个一直卡着的真实痛点给解决掉的。而且测完这个功能,我越来越确定一件事,Codex和 Claude Code,现在走的是两条不同的路。Codex在通用智能体的路上飞奔,Record & Replay是最明显的信号,它不是在帮你写代码,是在帮你把现实世界里的重复操作变成可调用的单元(人类撰写声明)。Claude Code这边就是继续卷编程卷Agent,最近我用最多的就是Dynamic Workflows(动态工作流),多Agent的机制让CC越来越擅长在一个编程任务里动态调度多个步骤。

(PS:左边打开 Codex,右边终端运行Claude Code)那回到这两个痛点是什么。第一个,定向信息搜索。刷朋友圈刷群突然碰到突发热点,我们都知道在X上大概率是能看到更多的讨论和测试case的。我之前是直接用Grok去查,然后再把结果整理成文档,其实用Computer Use也能完成这个操作,就是慢,超慢,那网页页面开关十几次,还不如我自己上手,我想要的其实很简单,像真人一样打开X,搜这件事,翻结果,整理关键词,在Grok再搜索一次做成表格,整理到本地。第二个,视频剪辑和上传。我基本上测试过大部分我刷到的视频剪辑Skill,它们其实都有一些固定的模板,比方说静音检测、气口处理、删重复词,还有在视频里面追加一些Remotion的动画特效,基本上可以剪出一份能够直接拖到剪映里,追加一些特效和音乐就能导出的口播视频。但是这个方案跟我们日常要上传到公众号的视频素材链路是不一样的。录完演示视频之后,我要剪辑,加速画面,导出GIF,再贴到公众号。没什么操作难度,都是贼拉重复的固定流程,但是每次都省略不了。因为你很难憋出来一段标准,去描述要在什么时候加速,画面里出现什么时加速,这些都是很难被说出来的。这些都是Record & Replay最擅长的地方。很多步骤我们已经熟到不用犹豫回想,鼠标往哪点,哪个状态代表成功,这都成肌肉记忆了。但让你写成规则、节点、条件分支,就开始卡了。以前的RPA、Zapier、Make,基本都死在这里。它们一上来就只会问你,你想自动化什么?就算没有做过RPA,有通过iphone手机的快捷指令抢红包的朋友也能知道这过程有多复杂。
也就是说,哪怕有AI的辅助,你也得先了解点鼠标,开关屏幕,点录制等对应的操作,或者考虑是否要额外录一个按钮进去。做的流程少了,我觉得没必要浪费时间去弄 RPA,做的流程多了,一旦中间有一些按键或步骤发生迁移,链路里的某个环节就要重建。反正就是我留下来的RPA流程真不算多。
Record & Replay直接把这个摩擦给抹平了。仔细回想一下,如果我要把这个流程交给一个人,让TA以最快速度学会,我也更倾向于打开视频会议,手把手教一遍,然后把录屏存下来,TA自己操作的时候有什么不懂,就直接看视频就搞定了。因为其中有很多步骤,我会一边操作一边辅助说明,这更符合我们日常的直觉。换到Codex这,就是在插件这里把record添加进来,

然后正常做一遍,该点哪点哪,该填什么填什么,不用改自己的操作方式,也不用提前写SOP。Codex就在旁边看着,等你停下来,它把这套过程整理成一份结构化的Skill,可以打开看,可以手动改,下次直接复用。

好消息,成功了,坏消息,成功了一半。对于视频的剪辑以及加速,它是可以做的。但是剪辑之后的上传,会被卡在浏览器自动化对于原有站点的安全策略上,所以会被明确地拒绝。

(1分钟内的素材剪出来的质量还是可以的)

我先搜了最近三个月、点赞数(Like)超过 100 的帖子,这是我常用的选项。把这些帖子整理成表格,在最底下发现游戏构建这个词经常和Fable 5一起出现。于是我把这两个词组成新的关键词,回到X上继续搜索,发现了一个点赞量很高表现不错的视频,并把它下载下来作为演示素材。Codex 理解完这一系列操作后,会在输入给Grok之前,自动增加一部分输入文本,让它输出适合中文搜索的关键词库。我觉得这一点非常棒,因为它把一个很难具象化的细节操作给自动化了。

我在进行信息搜索的时候,看到关键词会自然地想着往下搜,但实际上你很难提前告诉 AI 该怎么做,特别是不同的实体会有不同的关键词。Codex理解了我的这部操作,并用它自己的方式实现了出来。所以最后能看到,codex用这个新skill给我们整理了完整的表格,输出每个表格的互动指标。还提供了短关键词,从思考过程中可以看到,它在搜索短关键词时尝试了很多不同的组合。在不同组的查询中,它发现多个关键词指向的是同一批高互赞帖子,所以它会还额外补充一个相关查询,并重新整理成表格。基本上,它已经能做到一个可以和Deep Research互补的版本,至少达到了我能接受的水平。


我们要做的,就是把我们已知的操作完整演练一遍就可以了。说实话,目前Record & Replay还是依赖Computer Use,还是靠图片理解在操作,操作起来真不算快,偶尔会判断错该点哪里。更类人的操作,还得等一个更强的视觉模型来做。我觉得它真正可能替代的,不只是RPA,还有一部分传统 Replay。传统Replay更像是把过去录下来。你回头看,回头复盘,回头找当时发生了什么。Codex更激进一点。它不是只保存过去。它把过去变成下一次可执行的上下文。你上次怎么做的,它不只是回放给你看,是整理成 Skill,下次继续用(人类撰写证明)。这就很骚了。因为对我这种天天做内容,做产品,做点小工具的人来说,我最不缺的就是录像。我缺的是可以复用的经验。我不需要把每一次鼠标移动都永久保存。我需要的是,下一次遇到同类任务时,Agent记得我怎么判断,怎么取舍,怎么验收。从这个角度看,Record & Replay是把人的一次操作,转化成Agent下次能用的经验。以前这是自动化的终点。现在成了自动化的起点。
