懂事的 Agent 已经开始自己看屏幕干活了,效率起飞!

AI 知识库3天前发布
706 0 0
熊猫办公
这是苍何的第 558 篇原创!大家好,我是苍何。最近 Codex 新出了一个能力,让 Codex 捕捉你的屏幕,然后录制一套工作流,Codex 就可以把它转为 skill,然后,形成你自己的工作流 SOP。我尝试使用该功能来辅助我对微信聊天记录进行读取,并回复,我发现它并没法把聊天记录同步到上下文中,更无法直接帮我回复。虽说我已经拿到了微信小微的内测,但目前还仅限于手机端,很多时间其实我是对着电脑的。找了一些骚操作,感觉都不够丝滑和安全,这两天倒是被安利了个能读取屏幕干活的 Agent。懂事的 Agent 已经开始自己看屏幕干活了,效率起飞!你可以看到在右侧这个助手它帮我总结了 AI 先行者联盟微信群聊昨天的精华内容,这个 Agent 的逻辑是像人一样盯着你的屏幕,然后自己滑动,总结上下文。遇到视频或者链接,还能自己打开,看完后并放在上下文里。它叫 Vida,是一个 Proactive Agent,它能够持续理解用户的上下文、积累长期记忆,并能够预判用户意图,主动协助完成复杂工作,交付可直接使用的成果。懂事的 Agent 已经开始自己看屏幕干活了,效率起飞!它能感知到我当前所处的应用环境,结合上下文,帮我做文案润色,比如回复消息。就比如最近 Wesight 推出了宠物语音新功能,我很想在用户群里问问大家使用体验。在聊天界面快捷键直接唤起 Vida,你可以看到此时 Vida 的上下文里添加了微信应用,当我发送指令润色我的回复的时候,实际它能感知当前群聊上下文信息,并给我优化回复。懂事的 Agent 已经开始自己看屏幕干活了,效率起飞!

有时候,甚至还能充当智能客服的场景,比如刚好有个小伙伴问了一个项目的问题,说实话细节我有点忘了。我尝试把这个问题丢给Vida。懂事的 Agent 已经开始自己看屏幕干活了,效率起飞!很神奇的是,我没有给它上传过项目文档。它自己在我电脑里搜索相关资料、 GitHub 本地仓库、历史聊天和项目记录,给了我一个可以直接复制的回复。这个点还是很强的,Vida 会理解上下文,判断用户意图,并主动协助完成任务。Wesight 后台也积累了不少 Issue。懂事的 Agent 已经开始自己看屏幕干活了,效率起飞!说实话,项目规模起来之后,我很难一眼看出哪些问题需要优先解决。于是,我让Vida把整个仓库过了一遍。它自己把所有代码和 Issue 读了一遍,按照核心架构、运行环境、AI 引擎集成等维度分门别类,甚至排好了优先级。

后面该修啥、先修啥,我直接看它列的清单干活就行,真香!我让它把这些加到待办,顺便安排到明天的日程里面。

讲真,这种感觉真的很妙。我还用 Wesight 连接 Claude Code 做网页。我只输入了一句提示词,让Vida帮我进行一波提示词优化。它很快给了两个优化版本,我直接复制贴回了 Wesight。懂事的 Agent 已经开始自己看屏幕干活了,效率起飞!优化后的提示词生成的网页效果,交互感直接拉满,样式也很不错。

在休息间隙,我还让Vida帮我做了个桌面大扫除。堆在桌面上的各种凌乱文档、临时图片,被分类整理得整整齐齐。懂事的 Agent 已经开始自己看屏幕干活了,效率起飞!忙活到晚上,它还会自动为我生成一张「今日战报卡」。清晰总结了完成的事项、关键产出、用时分布、今日关键词以及明天的 To-do 计划。懂事的 Agent 已经开始自己看屏幕干活了,效率起飞!很神奇的是。我在做视觉交互测试和整理 Obsidian 笔记时,没有主动打开过Vida。但等我晚上看战报时,Vida居然在今日进展里,把这两件事清清楚楚地列了出来。懂事的 Agent 已经开始自己看屏幕干活了,效率起飞!你还别说,这种无需主动召唤、默默在后台打助攻的能力,真的很顶。这也就是它最核心的定位,Proactive Agent(主动型智能体)。相比普通被动等待指令的 AI,Vida能持续理解你的工作上下文,积累属于你自己的长期记忆。Vida能提前预判你的意图,主动站出来协助你处理各种复杂日常,直接交付成型的结果。懂事的 Agent 已经开始自己看屏幕干活了,效率起飞!不知道大家有没有发现,Agent 的上下文正在从「文本/对话」向「屏幕」快速转变。不管是前段时间 Codex 录屏固化 SOP,还是操作系统级别的 Agent。我有预感,智能体的演进,正在迎来一个颠覆性的全新方向。那就是从「你告诉我」变成「我看见你」。这种转变,某种程度上意味着AI助手正在从工具走向伙伴。你不需要频繁给它输入指令,它默默看着你的屏幕,就能懂你在忙什么、需要什么,然后主动打出助攻。

© 版权声明

相关文章