最近字节跳动开源了一个挺有意思的东西,叫UI-Tars Desktop,号称能用自然语言控制你的电脑和浏览器,自动帮你干活。我第一反应是,这不就是要跟Claude Computer Use和OpenAI Operator正面刚嘛。所以我们今天就来聊聊,这个工具实际用下来到底怎么样。"},
{"speaker": "guest", "text": "对,其实我拿到手之后还挺兴奋的,因为它跟前面两个最大的区别就是——完全开源,而且支持本地运行。你想啊,Claude Computer Use和OpenAI Operator都得走云端API,你的屏幕截图、操作记录全都要传到人家服务器上去。但UI-Tars Desktop所有数据都在你自己电脑上处理,这对很多企业用户来说,光是合规这一条就很有吸引力。"},
{"speaker": "host", "text": "先给不太熟悉的听众解释一下,这类工具到底是怎么工作的?它跟我们平时用的ChatGPT那种聊天机器人有什么本质区别?"},
{"speaker": "guest", "text": "好问题。你可以这么理解——ChatGPT是你问它问题,它给你文字回答,它是个"嘴巴"。但UI-Tars Desktop这类GUI Agent,它是有"眼睛"和"手"的。它能看懂你屏幕上的按钮、菜单、输入框这些界面元素,然后模拟人类去点鼠标、敲键盘。关键是,它不是通过读代码或者调API来理解界面的,它真的就是"看"屏幕像素,跟人看屏幕一样。这个技术难度其实非常高。"},
{"speaker": "host", "text": "就像是给AI装了一双眼睛,让它坐在你电脑前帮你操作。"},
{"speaker": "guest", "text": "对,非常形象。而且它提供两种模式,一种是命令行模式,适合开发者;另一种是Web UI模式,左边是聊天窗口,右边实时显示浏览器画面,你能看到AI正在做什么。界面设计跟Manus挺像的。"},
{"speaker": "host", "text": "那安装过程顺利吗?我看很多开源项目,光配置环境就能劝退一大批人。"},
{"speaker": "guest", "text": "嗯,这里有个小技巧,我是用Claude Code来辅助部署的,基本上在终端里告诉它"帮我设置UI-Tars Desktop",它就自动克隆仓库、装依赖,整个过程几乎不用手动写代码。但是!我踩了一个坑——配置界面虽然显示支持Anthropic的API Key,但实测根本用不了。折腾了好一会儿,最后换成OpenAI的Key才跑通。"},
{"speaker": "host", "text": "这个坑还挺关键的,等于说目前API兼容性还不够完善。"},
{"speaker": "guest", "text": "是的。另外还有个安全提醒,如果你配置的时候把API Key直接写进了代码文件里,测试完一定要马上删掉。Key泄露了别人能拿你的账户额度疯狂调用,账单能吓死你。最好的做法是用环境变量来管理。"},
{"speaker": "host", "text": "好,环境搭好了,我们来看实测。你一共测了三个任务?"},
{"speaker": "guest", "text": "对,三个难度递进的任务。第一个是搜索最新的AI Agent新闻,这个很顺利,它自动打开浏览器、搜索、汇总,返回了带链接的结构化信息,速度也很快。第二个是让它创建一个网站,输入"为我的AI社区创建一个漂亮的网站",它就在本地生成文件,调用OpenAI API完成编码和部署,右侧实时预览效果,整个过程非常顺滑。"},
{"speaker": "host", "text": "听起来前两个表现都不错啊。"},
{"speaker": "guest", "text": "而且有一点让我印象深刻——它的执行速度明显比Manus这类云端工具快。原因很简单,本地运行省去了截图上传、云端推理、指令回传这些网络往返,每个步骤能省几百毫秒到几秒,多步骤任务累积下来差距就很明显了。"},
{"speaker": "host", "text": "那第三个任务呢?我猜应该是翻车了?"},
{"speaker": "guest", "text": "哈哈,没错。第三个是让它画一张杭州七月份一个月的天气图表。它倒是很积极,用Chromium快速打开了好几个窗口去抓数据,但最后因为上下文长度限制失败了。我用的是GPT-4o模型,虽然有128K token的上下文窗口,听起来很大对吧?但在GUI Agent场景下,每次屏幕截图经过视觉编码会吃掉大量token,再加上多轮操作的历史记录、网页文本的累积,token消耗速度远超普通文字聊天。"},
{"speaker": "host", "text": "所以这其实不只是UI-Tars的问题,而是当前所有GUI Agent都面临的共性挑战。"},
{"speaker": "guest", "text": "完全正确。建议如果要跑这种复杂任务,最好用GPT-4.5或者更高版本的模型。"},
{"speaker": "host", "text": "那跟目前市面上的主流工具横向比较呢?你给它排第几?"},
{"speaker": "guest", "text": "说实话,综合排名的话,Claude Bot也就是Open Claw排第一,功能最强大,虽然偶尔会崩;NanoBot排第二,轻量好用;UI-Tars 1.5排第三。客观讲,如果Claude Bot没出现的话,UI-Tars会是一个让人惊艳的产品。但现在这个赛道竞争太激烈了,它在稳定性和功能完整度上还需要打磨。"},
{"speaker": "host", "text": "不过排第三也不意味着没有价值,对吧?"},
{"speaker": "guest", "text": "当然。它的差异化优势非常明确——开源免费、本地隐私保护、响应速度快、还能自由切换模型提供商不被锁定。尤其对企业用户来说,处理内部文档、财务数据、客户信息这些敏感场景,本地部署在GDPR等合规要求面前有天然优势。"},
{"speaker": "host", "text": "聊到商业价值,我注意到你提到了一个很有意思的案例——用AI Agent做SEO自动化,网站流量直接翻了三倍多?"},
{"speaker": "guest", "text": "对,那个案例是用Open Claw自动往WordPress发博客,日点击量从239飙到782。本质上就是AI Agent把关键词研究、内容生成、页面优化、定时发布这些环节全串起来自动化了,大幅提升了内容产出频率和长尾关键词覆盖。除了SEO,社交媒体运营、邮件日程管理、竞品监控、无代码建站,这些都是AI Agent已经能落地的场景。"},
{"speaker": "host", "text": "最后帮听众总结一下,什么样的人现在就可以上手UI-Tars Desktop,什么样的人可以再等等?"},
{"speaker": "guest", "text": "如果你是开发者或者技术爱好者,尤其是对数据隐私有要求的,现在就可以试。搭配GPT-4.5这种更强的模型效果会更好。但如果你是追求开箱即用、稳定体验的普通用户,建议先观望,等后续版本迭代。毕竟它是开源项目,社区在持续贡献,字节也在迭代更新,这个赛道的进化速度非常快。"},
{"speaker": "host", "text": "嗯,说到底这是一个起点很好、潜力很大、但还在成长期的产品。开源这条路走对了,剩下的就是时间和社区的力量了。"}
],