12.7k星星！用1000 行代码让AI拥有「自进化的浏览器控制权」，browser-use开源

你可能用过Selenium、Playwright这些自动化工具，或者试过各种AI浏览器Agent。
这些方式有个共同的毛病，在AI和浏览器之间堆了太多层。
打个比方，你想让AI帮你点一下网页上的按钮，正常来说，AI直接告诉浏览器我在坐标(100, 200)点一下就完了。
但很多框架非要AI先去猜DOM结构、找selector、等框架封装好API，才能执行。
Agent的能力被框架的API清单框死了，框架没暴露的功能，Agent再聪明也使不出来。
今天给大家推荐的这个开源工具是browser-use做的，浏览器自动化很权威了。
核心代码非常精简，就1000行。
项目简介

browser-harness是一个极简的浏览器遥控器，它让大模型通过一条WebSocket直接连上你电脑里的 Chrome，没有中间封装层。
Agent想截图就截图，想点就点，如果发现少了个工具，还能现场自己写一个补进去，并且下次再用的时候，这个工具就已经在了。
DEMO

用法很简单，把下面这段代码丢进你的Agent里就可以了。

Set up https://github.com/browser-use/browser-harnessforme.Read`install.md`andfollow the steps to install browser-harnessandconnectit tomybrowser.

后面那些权限就都点同意，然后就能开始用Agent操作浏览器了。
browser-harness做了一个外置的记忆，里面已经有一些了，后面还会自动添加记忆。

原理

看了原理你就明白怎么回事了。
很多人第一反应以为是浏览器插件，其实不是。
它就是一个Python程序，通过Chrome自带的调试协议CDP和浏览器聊天。
我们平时按F12打开的开发者工具，底层用的就是CDP。
browser-harness做的事很简单，架一条WebSocket通道，让Agent也能像开发者工具一样，直接对浏览器发号施令，截图、点击、输入文字、执行JS、切换标签页，等等。
整个过程没有安装任何Chrome插件，也不需要启动一个新的浏览器，它连的是你正在用的Chrome，你的登录态、书签、插件全都在。
Agent在操作一个网站的时候，比如摸索出了BOSS直聘的搜索框要等2秒才加载出来、Amazon的购物车按钮在这个坐标附近，它会自己把这些经验写成小抄，存在domain-skills文件夹里。
下次再去同一个网站，browser-harness会先把这些小抄翻出来给Agent看，Agent就知道，哦上次我是这么干的，不用重新摸索一遍。

还有一个很巧妙的设计，agent_helpers.py这个文件是Agent自己可以改的，比如这次执行任务，发现缺一个上传文件的函数，Agent当场写进去，下次再遇到上传，直接调用就行。
browser-harness就这样一次比一次聪明。
项目链接