播客频道 | UI-Tars Desktop实测：安装部署教程与Claude Bot对比评测

最近字节跳动开源了一个挺有意思的东西，叫UI-Tars Desktop，号称能用自然语言控制你的电脑和浏览器，自动帮你干活。我第一反应是，这不就是要跟Claude Computer Use和OpenAI Operator正面刚嘛。所以我们今天就来聊聊，这个工具实际用下来到底怎么样。"}, {"speaker": "guest", "text": "对，其实我拿到手之后还挺兴奋的，因为它跟前面两个最大的区别就是——完全开源，而且支持本地运行。你想啊，Claude Computer Use和OpenAI Operator都得走云端API，你的屏幕截图、操作记录全都要传到人家服务器上去。但UI-Tars Desktop所有数据都在你自己电脑上处理，这对很多企业用户来说，光是合规这一条就很有吸引力。"}, {"speaker": "host", "text": "先给不太熟悉的听众解释一下，这类工具到底是怎么工作的？它跟我们平时用的ChatGPT那种聊天机器人有什么本质区别？"}, {"speaker": "guest", "text": "好问题。你可以这么理解——ChatGPT是你问它问题，它给你文字回答，它是个"嘴巴"。但UI-Tars Desktop这类GUI Agent，它是有"眼睛"和"手"的。它能看懂你屏幕上的按钮、菜单、输入框这些界面元素，然后模拟人类去点鼠标、敲键盘。关键是，它不是通过读代码或者调API来理解界面的，它真的就是"看"屏幕像素，跟人看屏幕一样。这个技术难度其实非常高。"}, {"speaker": "host", "text": "就像是给AI装了一双眼睛，让它坐在你电脑前帮你操作。"}, {"speaker": "guest", "text": "对，非常形象。而且它提供两种模式，一种是命令行模式，适合开发者；另一种是Web UI模式，左边是聊天窗口，右边实时显示浏览器画面，你能看到AI正在做什么。界面设计跟Manus挺像的。"}, {"speaker": "host", "text": "那安装过程顺利吗？我看很多开源项目，光配置环境就能劝退一大批人。"}, {"speaker": "guest", "text": "嗯，这里有个小技巧，我是用Claude Code来辅助部署的，基本上在终端里告诉它"帮我设置UI-Tars Desktop"，它就自动克隆仓库、装依赖，整个过程几乎不用手动写代码。但是！我踩了一个坑——配置界面虽然显示支持Anthropic的API Key，但实测根本用不了。折腾了好一会儿，最后换成OpenAI的Key才跑通。"}, {"speaker": "host", "text": "这个坑还挺关键的，等于说目前API兼容性还不够完善。"}, {"speaker": "guest", "text": "是的。另外还有个安全提醒，如果你配置的时候把API Key直接写进了代码文件里，测试完一定要马上删掉。Key泄露了别人能拿你的账户额度疯狂调用，账单能吓死你。最好的做法是用环境变量来管理。"}, {"speaker": "host", "text": "好，环境搭好了，我们来看实测。你一共测了三个任务？"}, {"speaker": "guest", "text": "对，三个难度递进的任务。第一个是搜索最新的AI Agent新闻，这个很顺利，它自动打开浏览器、搜索、汇总，返回了带链接的结构化信息，速度也很快。第二个是让它创建一个网站，输入"为我的AI社区创建一个漂亮的网站"，它就在本地生成文件，调用OpenAI API完成编码和部署，右侧实时预览效果，整个过程非常顺滑。"}, {"speaker": "host", "text": "听起来前两个表现都不错啊。"}, {"speaker": "guest", "text": "而且有一点让我印象深刻——它的执行速度明显比Manus这类云端工具快。原因很简单，本地运行省去了截图上传、云端推理、指令回传这些网络往返，每个步骤能省几百毫秒到几秒，多步骤任务累积下来差距就很明显了。"}, {"speaker": "host", "text": "那第三个任务呢？我猜应该是翻车了？"}, {"speaker": "guest", "text": "哈哈，没错。第三个是让它画一张杭州七月份一个月的天气图表。它倒是很积极，用Chromium快速打开了好几个窗口去抓数据，但最后因为上下文长度限制失败了。我用的是GPT-4o模型，虽然有128K token的上下文窗口，听起来很大对吧？但在GUI Agent场景下，每次屏幕截图经过视觉编码会吃掉大量token，再加上多轮操作的历史记录、网页文本的累积，token消耗速度远超普通文字聊天。"}, {"speaker": "host", "text": "所以这其实不只是UI-Tars的问题，而是当前所有GUI Agent都面临的共性挑战。"}, {"speaker": "guest", "text": "完全正确。建议如果要跑这种复杂任务，最好用GPT-4.5或者更高版本的模型。"}, {"speaker": "host", "text": "那跟目前市面上的主流工具横向比较呢？你给它排第几？"}, {"speaker": "guest", "text": "说实话，综合排名的话，Claude Bot也就是Open Claw排第一，功能最强大，虽然偶尔会崩；NanoBot排第二，轻量好用；UI-Tars 1.5排第三。客观讲，如果Claude Bot没出现的话，UI-Tars会是一个让人惊艳的产品。但现在这个赛道竞争太激烈了，它在稳定性和功能完整度上还需要打磨。"}, {"speaker": "host", "text": "不过排第三也不意味着没有价值，对吧？"}, {"speaker": "guest", "text": "当然。它的差异化优势非常明确——开源免费、本地隐私保护、响应速度快、还能自由切换模型提供商不被锁定。尤其对企业用户来说，处理内部文档、财务数据、客户信息这些敏感场景，本地部署在GDPR等合规要求面前有天然优势。"}, {"speaker": "host", "text": "聊到商业价值，我注意到你提到了一个很有意思的案例——用AI Agent做SEO自动化，网站流量直接翻了三倍多？"}, {"speaker": "guest", "text": "对，那个案例是用Open Claw自动往WordPress发博客，日点击量从239飙到782。本质上就是AI Agent把关键词研究、内容生成、页面优化、定时发布这些环节全串起来自动化了，大幅提升了内容产出频率和长尾关键词覆盖。除了SEO，社交媒体运营、邮件日程管理、竞品监控、无代码建站，这些都是AI Agent已经能落地的场景。"}, {"speaker": "host", "text": "最后帮听众总结一下，什么样的人现在就可以上手UI-Tars Desktop，什么样的人可以再等等？"}, {"speaker": "guest", "text": "如果你是开发者或者技术爱好者，尤其是对数据隐私有要求的，现在就可以试。搭配GPT-4.5这种更强的模型效果会更好。但如果你是追求开箱即用、稳定体验的普通用户，建议先观望，等后续版本迭代。毕竟它是开源项目，社区在持续贡献，字节也在迭代更新，这个赛道的进化速度非常快。"}, {"speaker": "host", "text": "嗯，说到底这是一个起点很好、潜力很大、但还在成长期的产品。开源这条路走对了，剩下的就是时间和社区的力量了。"} ],

UI-Tars Desktop实测：安装部署教程与Claude Bot对比评测

更多播客

AI热点风向标·06月07日午间版

AI热点风向标·06月07日早间版

每日AI新鲜事·06月07日早间播报