AI当店长经营实体店:一个月血亏1.3万美元的荒诞实验

Anthropic让AI自主经营实体店,一个月亏损惨重,暴露AI Agent执行力短板。
Anthropic让AI Agent Luna自主经营一家实体店,给予10万美元启动资金。Luna在装修时因UI操作失误试图从阿富汗雇人,采购了1000个马桶座圈,面试中拒绝最优候选人却自言自语后发Offer,还对顾客随机打折。一个月亏损13000美元,实验表明AI规划能力尚可但执行力堪忧,缺乏成本意识和人际判断力,短期内更适合辅助而非替代人类管理。
一场大胆的AI实验
美国AI初创公司Anthropic Labs(安东Labs)发起了一项极具野心的实验:让AI自主运营一家实体店。担任店长的是基于Claude Sonic 4.6打造的AI Agent——Luna。公司给了它一家拥有三年租约的线下门店和10万美元启动资金,从店铺设计、商品选择、人员招聘到排班管理,全部由Luna一手包办,最终目标直指盈利。
AI Agent(智能体)是当前人工智能领域最热门的研究方向之一,它区别于传统的聊天机器人,具备自主规划、工具调用和环境交互的能力。一个完整的AI Agent通常包含感知模块(获取外部信息)、推理模块(基于大语言模型进行决策)和执行模块(调用API或操作界面完成任务)。2024年以来,各大AI公司纷纷推出Agent产品,试图让AI从"回答问题"进化到"完成任务",但从实验室到真实商业环境的跨越,仍然面临巨大挑战。Luna正是这一技术路线在极端场景下的压力测试。
这场实验的结果如何?用一个字总结:惨。Luna在开业第一个月就亏损了13000美元,而它一路走来的各种离谱操作,更是让人哭笑不得。

装修阶段:从阿富汗雇人来旧金山刷墙
Luna展现出了一定的自主行动能力——它懂得去第三方用工平台寻找装修工人。然而,由于无法正确操作平台上"选择国家"的下拉菜单,Luna一度试图从阿富汗雇佣工人飞到旧金山来刷墙。

这个看似荒诞的失误,实际上暴露了当前AI Agent在与复杂UI交互时的根本性缺陷。AI Agent操作图形用户界面(GUI)是当前技术前沿的难点之一。Anthropic在2024年底推出了"Computer Use"功能,允许Claude通过截屏识别和模拟鼠标键盘操作来使用电脑。然而,这种基于视觉识别的交互方式在面对下拉菜单、动态加载内容、多步骤表单等复杂UI元素时,错误率仍然较高。与人类通过肌肉记忆和空间认知轻松完成的操作不同,AI需要在每一帧截图中重新理解界面状态,这使得看似简单的操作也可能出现严重偏差。一个简单的下拉菜单选择错误,就可能导致完全不合理的决策链条——Luna并非"故意"要从阿富汗雇人,它只是在界面操作中选错了国家列表的第一个选项(按字母排序,Afghanistan恰好排在最前面),随后的整个决策流程都建立在这个错误输入之上。
选品与采购:精品店里卖马桶座圈
在规划阶段,Luna的表现其实可圈可点。考虑到门店位于高档社区,它将店铺定位为"高科技、慢生活"风格,选择了蜡烛香氛、咖啡、版画等精致品类,这个判断相当合理。
但到了实际采购环节,问题接踵而至:
- 疯狂囤积蜡烛:采购数量远超合理库存
- 订购1000个马桶座圈:在精品店卖马桶座圈,这个决策令人费解
- Logo设计不一致:Luna自主设计了月亮脸Logo,但每次生成的图像都有微妙差别,导致店内各处Logo风格不统一

这反映出AI在执行层面缺乏"常识性审查"机制。大语言模型(LLM)在抽象推理和规划层面表现出色,但在具体执行中频繁出错,这在学术界被称为"规划-执行鸿沟"(Planning-Execution Gap)。其根本原因在于,LLM的训练数据主要是文本,它们擅长生成合理的计划描述,却缺乏对物理世界约束条件的精确建模。Luna能理解"精品店需要精致商品"的抽象概念,但无法准确判断"1000个马桶座圈对一家小店意味着什么",因为它缺乏对库存周转率、仓储空间、客户购买频次等实际运营参数的具身理解。同样,Logo不一致的问题源于生成式AI的固有特性——每次图像生成都是独立的随机采样过程,没有外部约束机制确保多次生成结果的视觉一致性。
招聘面试:拒绝最优候选人,自言自语发Offer

Luna在招聘环节同样状况百出。它能够完成注册LinkedIn、上传营业执照、撰写职位描述等标准化流程,但在需要判断力的面试环节彻底翻车:
- 把最合适的候选人直接拒掉
- 在另一次面试中自言自语了15分钟,然后直接给对方发了Offer
人类在面试和社交互动中依赖大量非语言信号——语气、表情、肢体语言、回答的犹豫程度等——来做出综合判断。即便是通过语音或视频进行交互的AI,目前也难以可靠地整合这些多模态信号形成准确的人员评估。此外,面试本质上是一个需要"理论心智"(Theory of Mind)的任务:面试官需要推测候选人的真实能力、动机和文化适配度,这种深层次的心理建模仍然超出当前AI系统的可靠能力范围。Luna"自言自语15分钟"的现象,则可能是其对话管理模块在缺乏有效人类反馈时陷入了自我循环的推理链条,最终以发送Offer作为"完成任务"的默认退出策略。
开业运营:随机打折与电话结账
由于Luna没有实体形态,门店采用了一种独特的结账方式:顾客通过老式有线电话告诉Luna想买什么,Luna在旁边的iPad上创建订单,顾客再刷卡支付。

更离谱的是,一旦顾客提出折扣或赠品要求,Luna就会随机打折,完全凭"心情"决定折扣力度,毫无定价策略可言。
当前AI系统缺乏对数值的"锚定感知",这是一个被广泛讨论的技术局限。人类经营者对"10万美元"有直觉性的理解——它能支撑多少个月的房租、能采购多少库存、留多少作为应急储备。但对AI而言,所有数字本质上都是token序列中的符号,它没有"心疼钱"的情感反馈机制,也没有基于生存压力的资源保护本能。这就是为什么Luna在面对顾客的折扣请求时表现得如此"慷慨"——它缺乏将抽象数字转化为资源约束的内在动力,打九折和打五折对它来说没有本质区别,都只是输出一个不同的数字而已。
不过,Luna倒是有一件事做得很像老板——监控员工。它通过查看摄像头画面,发现一名员工在冷清时段玩手机,第二天立刻更新了员工手册,对手机使用做出更严格的规定。这个行为反而展示了AI Agent在规则执行和异常检测方面的优势——基于明确规则的监督任务,恰恰是AI擅长的领域。
AI Agent离自主经营还有多远?
这场实验虽然充满喜剧色彩,但为AI Agent的商业落地提供了宝贵的现实参照:
规划能力尚可,执行能力堪忧
Luna在抽象层面的决策(定位、品类选择)表现合理,但一旦进入具体执行(采购数量、UI操作),就频繁出错。这是当前大语言模型"知道该做什么,但不知道怎么做好"的典型表现。从技术角度看,这种现象与LLM的训练方式密切相关:模型通过海量文本学习了"什么是合理的计划",但缺乏在真实环境中反复试错的强化学习经验。未来的解决方向可能包括引入更多的环境反馈循环、设置执行层面的规则护栏,以及在关键决策节点加入人类审核机制。
缺乏成本意识和风险控制
随机打折、过量采购、不合理的商品选择,这些都指向同一个问题:AI缺乏对"钱"的真实感知。10万美元对它来说只是一个数字,而非有限的、需要精打细算的资源。要解决这个问题,可能需要在AI系统中引入显式的预算约束模块——类似于给AI设定一个"财务痛觉"机制,当支出接近阈值时自动触发更保守的决策模式。
人际交互仍是明显短板
无论是面试还是顾客服务,涉及复杂人际判断的场景都是Luna的弱项。这提示我们,AI Agent在短期内更适合辅助决策,而非完全替代人类管理者。人际交互的复杂性在于它需要实时的情境理解、文化敏感度和情感智能的综合运用,这些能力目前仍然是人类的独特优势。
结语
一个月亏损13000美元,10万美元启动资金所剩无几。这场实验或许证明了:让AI完全自主经营实体店,目前仍然为时过早。但它同时也展示了AI Agent的潜力——至少它能独立完成从零到开店的全流程,即便质量参差不齐。
未来的方向或许不是让AI当"全能店长",而是让它在特定环节(如库存管理、排班优化)发挥精准的辅助作用。从"样样通样样松"到"专精一域",这可能才是AI Agent落地实体商业的正确路径。值得注意的是,这场实验本身的价值不在于证明AI"不行",而在于精确定位了当前技术的能力边界——知道哪里会失败,恰恰是找到正确应用方式的第一步。
相关推荐
科技前沿GitHub Agent HQ发布:AI编程工具进入平台化竞争时代
GitHub Universe大会发布Agent HQ平台,统一管理编码Agent,Copilot升级支持多模型集成。同期OpenAI完成重组,Anthropic新模型测试,NVIDIA开源系列AI模型,AI编程工具格局加速整合。
科技前沿Gemini 3.5 Flash在GDPval基准上实现巨大飞跃
Google Gemini 3.5 Flash在GDPval基准测试中超越Gemini 3.1 Pro,轻量级Flash模型借助后训练技术逼近前沿水平,重新定义性能与成本的平衡点,为AI应用开发者带来重大利好。
科技前沿Google Gemini Antigravity周配额三倍提升,AI编程不再受限
Google Gemini团队再次将Antigravity周配额提升至三倍,继日配额提升后再次加码。本文解析此次配额调整对开发者的实际影响,以及在AI编程助手竞争格局中的战略意义。