播客频道 | DeepSeek R1+BrowserUse：免费开源浏览器自动化方案搭建教程

今天想聊一个特别实用的话题。OpenAI之前推了个Operator服务，能让AI帮你自动操作浏览器，搜航班、填表单什么的。但问题是——每月200美元。最近开源社区搞出了一套完全免费的替代方案，效果还真不赖。对，你说的就是BrowserUse加DeepSeek R1这个组合。我最近一直在折腾这套东西，说实话挺惊喜的。BrowserUse是个开源的浏览器自动化框架，在WebAgent基准测试里拿到了89%的准确率，这个数字在浏览器自动化领域已经算非常高了。 89%是什么概念？能给大家解释一下这个测试具体测什么吗？ WebAgent基准测试其实就是模拟真实的网页操作场景，比如填表单、在网站上找特定信息、跨多个页面完成一个任务。89%意味着将近九成的任务它都能正确完成。你想想，传统的自动化工具像Selenium，它是靠写死的脚本和固定的页面选择器来工作的，网站一改版就全挂了。而BrowserUse是基于大语言模型的，它能理解页面语义，网站布局变了它也能适应。嗯，这就像是一个会看路的司机和一个只会按导航走的司机的区别。哈哈，这比喻挺好。而且BrowserUse还有几个特别实用的能力。第一个是全页面感知，它不是像截图方案那样只能看到屏幕上显示的那一块，而是直接解析整个网页的HTML结构和可访问性树，一次性就能拿到页面上所有的文本、链接、按钮信息。第二个是它能直接连接你正在用的浏览器，不用重新登录。第三个是自我纠错，执行过程中出了问题能动态调整。等等，直接连接正在用的浏览器这点很关键啊。OpenAI的Operator好像不是这样的？对，这是一个很大的差别。Operator是跑在一个独立的沙盒浏览器里的，每次执行任务都得从头登录各个网站。你想想，现在很多网站都有二次验证、验证码什么的，光登录这一步就够折腾了。而BrowserUse直接复用你浏览器里已有的登录状态和Cookie，省了一大堆麻烦。好，那我们来聊聊另一半——DeepSeek R1。这个模型最近确实很火，它跟普通的大语言模型有什么本质区别？最核心的区别就是它是个推理模型。普通的大语言模型是你问什么它直接答什么，而R1在给出答案之前会先进行多步骤的内部推理，业内叫思考链，Chain of Thought。它会把复杂问题拆成子问题，逐步验证每一步的逻辑，最后再综合得出结论。这个能力是通过强化学习训练出来的。这种思考能力在浏览器自动化里为什么特别重要？你想啊，浏览器自动化本质上是一连串的决策。该点哪个按钮？在哪个输入框填什么内容？怎么在多个页面之间跳转？每一步都需要基于当前上下文做判断。有了思考链，R1在每一步操作前都会先想清楚为什么要这么做。而且这个思考过程在BrowserUse的界面里是可见的，你能看到它在想什么，这对调试特别有帮助。有没有具体的例子？有啊，比如让它搜从纽约到莫斯科的最便宜航班。R1会先分析查询需求，然后在多个平台上比价，最终找到了大概1200美元的最优价格。这个价格你自己手动在Google Flights上翻半天都未必能找到。整个过程你能看到它的推理链路，为什么选择访问这个网站、为什么点这个按钮，非常透明。那R1这么大的模型，普通人的电脑跑得动吗？这就要说到模型蒸馏了。R1完整版有671B参数，那确实需要服务器级别的硬件。但它提供了多个蒸馏版本，简单说就是用大模型的能力去训练小模型。14B版本大概需要16GB内存，32B版本需要32GB内存。现在很多电脑都能满足这个条件。部署起来复杂吗？其实不复杂。你需要先装好Git、Python和一个叫UV的包管理工具——UV是用Rust写的，比传统的pip快几十倍。然后把BrowserUse的代码克隆下来，创建虚拟环境，装好依赖，启动WebUI就行了。模型这边用Ollama来管理，它把模型的下载、部署和API服务都封装成了简单的命令行操作。装好之后在终端敲一行命令就能把DeepSeek R1拉下来运行。 Ollama这个工具我之前也听说过，它是怎么跟BrowserUse对接的？这个设计特别巧妙。Ollama在本地启动后会提供一个兼容OpenAI API格式的服务，默认端口是11434。所以BrowserUse这边只需要把API地址指向localhost就行了，不用改任何代码。这意味着你随时可以在本地模型和在线API之间切换，非常灵活。我来帮大家总结一下这套方案和OpenAI Operator的核心差异。费用上，一个完全免费，一个每月200美元。功能上，开源方案支持全页面感知、真实浏览器连接、任意模型切换，而Operator只能看到可见区域、跑在沙盒里、只能用OpenAI自家模型。还有一个特别重要的维度是数据隐私。本地运行意味着你的浏览数据、登录凭证、操作记录全都不会离开你的电脑。对于处理敏感业务信息的企业用户来说，这一点可能比省钱还重要。确实。其实这也反映了一个更大的趋势——开源社区在AI工具这块的追赶速度越来越快了。是的，而且不只是追赶，在某些维度上已经超越了。不管是数据采集、价格监控、内容发布，还是日常重复性的网页操作，这套方案都能覆盖。随着开源模型能力的持续提升，我觉得这类本地化的AI自动化方案会成为越来越多开发者的首选。嗯，如果你手头有16GB以上内存的电脑，又有浏览器自动化的需求，真的值得花半小时把这套东西搭起来试试。毕竟，能省下每月200美元的方案，不试白不试。

DeepSeek R1+BrowserUse：免费开源浏览器自动化方案搭建教程

更多播客

AI热点风向标·06月07日午间版

AI热点风向标·06月07日早间版

每日AI新鲜事·06月07日早间播报