12.7k星星!用1000 行代码让AI拥有「自进化的浏览器控制权」,browser-use开源

AI 知识库10小时前发布 开源AI
686 0 0
熊猫办公
12.7k星星!用1000 行代码让AI拥有「自进化的浏览器控制权」,browser-use开源
你可能用过Selenium、Playwright这些自动化工具,或者试过各种AI浏览器Agent。
这些方式有个共同的毛病,在AI和浏览器之间堆了太多层。
打个比方,你想让AI帮你点一下网页上的按钮,正常来说,AI直接告诉浏览器我在坐标(100, 200)点一下就完了。
但很多框架非要AI先去猜DOM结构、找selector、等框架封装好API,才能执行。
Agent的能力被框架的API清单框死了,框架没暴露的功能,Agent再聪明也使不出来。
今天给大家推荐的这个开源工具是browser-use做的,浏览器自动化很权威了。
核心代码非常精简,就1000行。
项目简介
browser-harness是一个极简的浏览器遥控器,它让大模型通过一条WebSocket直接连上你电脑里的 Chrome,没有中间封装层。
Agent想截图就截图,想点就点,如果发现少了个工具,还能现场自己写一个补进去,并且下次再用的时候,这个工具就已经在了。
DEMO
用法很简单,把下面这段代码丢进你的Agent里就可以了。

Set up https://github.com/browser-use/browser-harnessforme.
Read`install.md`andfollow the steps to install browser-harnessandconnectit tomybrowser.

后面那些权限就都点同意,然后就能开始用Agent操作浏览器了。
browser-harness做了一个外置的记忆,里面已经有一些了,后面还会自动添加记忆。
12.7k星星!用1000 行代码让AI拥有「自进化的浏览器控制权」,browser-use开源
原理
看了原理你就明白怎么回事了。
很多人第一反应以为是浏览器插件,其实不是。
它就是一个Python程序,通过Chrome自带的调试协议CDP和浏览器聊天。
我们平时按F12打开的开发者工具,底层用的就是CDP。
browser-harness做的事很简单,架一条WebSocket通道,让Agent也能像开发者工具一样,直接对浏览器发号施令,截图、点击、输入文字、执行JS、切换标签页,等等。
整个过程没有安装任何Chrome插件,也不需要启动一个新的浏览器,它连的是你正在用的Chrome,你的登录态、书签、插件全都在。
Agent在操作一个网站的时候,比如摸索出了BOSS直聘的搜索框要等2秒才加载出来、Amazon的购物车按钮在这个坐标附近,它会自己把这些经验写成小抄,存在domain-skills文件夹里。
下次再去同一个网站,browser-harness会先把这些小抄翻出来给Agent看,Agent就知道,哦上次我是这么干的,不用重新摸索一遍。

还有一个很巧妙的设计,agent_helpers.py这个文件是Agent自己可以改的,比如这次执行任务,发现缺一个上传文件的函数,Agent当场写进去,下次再遇到上传,直接调用就行。
browser-harness就这样一次比一次聪明。
项目链接

https://github.com/browser-use/browser-harness

扫码加入AI交流群获得更多技术支持和交流(请注明自己的职业)
12.7k星星!用1000 行代码让AI拥有「自进化的浏览器控制权」,browser-use开源
关注「开源AI项目落地」公众号与AI时代更靠近一点

© 版权声明

相关文章