
这些方式有个共同的毛病,在AI和浏览器之间堆了太多层。
打个比方,你想让AI帮你点一下网页上的按钮,正常来说,AI直接告诉浏览器我在坐标(100, 200)点一下就完了。
但很多框架非要AI先去猜DOM结构、找selector、等框架封装好API,才能执行。
Agent的能力被框架的API清单框死了,框架没暴露的功能,Agent再聪明也使不出来。
今天给大家推荐的这个开源工具是browser-use做的,浏览器自动化很权威了。
核心代码非常精简,就1000行。
项目简介
Agent想截图就截图,想点就点,如果发现少了个工具,还能现场自己写一个补进去,并且下次再用的时候,这个工具就已经在了。
DEMO
Set up https://github.com/browser-use/browser-harnessforme.Read`install.md`andfollow the steps to install browser-harnessandconnectit tomybrowser.
browser-harness做了一个外置的记忆,里面已经有一些了,后面还会自动添加记忆。

很多人第一反应以为是浏览器插件,其实不是。
它就是一个Python程序,通过Chrome自带的调试协议CDP和浏览器聊天。
我们平时按F12打开的开发者工具,底层用的就是CDP。
browser-harness做的事很简单,架一条WebSocket通道,让Agent也能像开发者工具一样,直接对浏览器发号施令,截图、点击、输入文字、执行JS、切换标签页,等等。
整个过程没有安装任何Chrome插件,也不需要启动一个新的浏览器,它连的是你正在用的Chrome,你的登录态、书签、插件全都在。
Agent在操作一个网站的时候,比如摸索出了BOSS直聘的搜索框要等2秒才加载出来、Amazon的购物车按钮在这个坐标附近,它会自己把这些经验写成小抄,存在domain-skills文件夹里。
下次再去同一个网站,browser-harness会先把这些小抄翻出来给Agent看,Agent就知道,哦上次我是这么干的,不用重新摸索一遍。
还有一个很巧妙的设计,agent_helpers.py这个文件是Agent自己可以改的,比如这次执行任务,发现缺一个上传文件的函数,Agent当场写进去,下次再遇到上传,直接调用就行。
browser-harness就这样一次比一次聪明。
项目链接
https://github.com/browser-use/browser-harness

© 版权声明
文章版权归作者所有,未经允许请勿转载。
