今天聊一个特别有意思的研究——普林斯顿和谷歌DeepMind联合搞了个框架,让AI从零开始,自己给自己造工具,然后通关了好几款宝可梦RPG。你第一次看到这个结果的时候什么感觉?
说实话,我第一反应是——等等,这不是作弊吧?因为之前的研究已经反复证明了,哪怕是GPT-4V、Gemini这种顶级多模态模型,在宝可梦里连城镇导航都搞不定。结果现在告诉我AI不仅通关了,还是自己造工具通关的?这个跨度有点大。
对,这里面有个关键概念需要先解释一下——脚手架,英文叫Scaffolding。你可以把它理解成什么?
你可以这么想:大模型本身就像一个很聪明但是手无寸铁的人。脚手架就是你给他配的装备——系统提示词告诉他该怎么思考,子智能体帮他分工,技能库是他积累的招式,记忆库是他的笔记本。在代码领域,像Claude Code这些工具已经把脚手架做得很成熟了。但在具身智能领域,就是AI需要跟环境持续互动的场景,一直没有好的通用方案。
所以之前的做法是人工来设计这些脚手架?
没错。之前Gemini Plays Pokemon这个项目,早期就是典型的人类在环模式——研究人员反复看AI的游戏录像,发现它卡在哪了,然后手动调整脚手架。比如发现AI不会打属性克制,就手动加一个属性克制表;发现AI迷路了,就加一个寻路算法。一步步迭代,从最简单的截图加按钮,慢慢搭成了一个多智能体的复杂架构。
这个过程听起来效率挺低的。
非常低。而且你想,宝可梦RPG为什么难?它不是单一维度的挑战。你得在复杂地图里找路,这是空间导航;你得搞清楚火系克草系,这是策略决策;你得培养队伍管理资源,这是长期规划;你还得跟NPC对话理解任务线索。这些能力全得有,缺一个都玩不转。人工给每个环节都设计脚手架,工作量巨大。
所以Continual Harness的核心思路就是——让AI自己来干这件事?
对,而且是非常彻底的那种。研究团队做了一个很大胆的决定:把所有人工编写的子智能体全部去掉,只给模型提供最原始的工具——就是对脚手架四个组件做增删改的能力。然后让AI在游戏过程中自己构建需要的一切。
具体怎么实现的呢?我看论文里提到了一个双循环架构。
嗯,这个设计挺精巧的。内循环就是正常的游戏交互——AI看到画面,做出动作。外循环才是关键,有一个叫Refiner的模块,它会定期回顾AI最近的游戏轨迹,识别失败模式。比如发现AI在同一个地方转圈圈了,或者工具调用老是失败,或者目标一直没推进。然后它就会生成对应的优化操作:重写系统提示词、创建新的子智能体、把成功的操作序列代码化成新技能、更新记忆。
这里有个很重要的点——它不需要重置环境。
这是核心优势之一。你想,很多强化学习方法是基于重置的——失败了就从头来,反复试。但这有两个大问题:第一,每次重置后之前积累的失败信息就丢了;第二,游戏后期才出现的高难度挑战,比如精英四的战斗、复杂解谜,基于重置的方法可能根本接触不到。Continual Harness的优化质量是随时间累积的,而且现实中很多场景——比如持续运行的机器人、运维系统——根本没法随意重置。
那实际效果怎么样?数据说话。
数据相当漂亮。用最强的Gemini 3 Pro,Continual Harness花大约130美元完成了100%的里程碑。而极简版的脚手架花了215美元,只完成了90%。成本降了40%,完成率反而更高。而且到2025年,这套系统已经先后通关了宝可梦蓝、宝可梦黄遗产版和宝可梦水晶,成为首个通关多款宝可梦RPG的AI系统。
听起来像是银弹了。但我猜肯定有坑?
你猜对了,有一个非常重要的发现——模型能力门槛。强模型Gemini 3 Pro收益显著,中等模型Flash表现不稳定方差很大,而弱模型Flash Lite用了这个框架反而比不用还差。原因也好理解:能力不够的模型,光是正常玩游戏就已经很吃力了,你还让它同时去优化脚手架,等于分散了本来就不够用的认知资源。就像你让一个刚学开车的人边开车边修车,那肯定翻车。
哈哈,这个比喻很形象。那开源模型呢?有没有什么办法让它们也能用上?
有,论文用Gemma 4系列做了联合学习的验证。就是同时优化模型权重和脚手架状态。一个特别有意思的发现是:单独做监督微调不行,单独做离线强化学习也不行,只有把两者结合成联合学习循环,才开始出现持续的游戏进度提升。这说明模型能力和工具能力之间有深度耦合——模型变强了能写出更好的工具,更好的工具又让模型能处理更复杂的任务,形成正反馈。
有点像协同进化的味道。
对,论文里也提到了这个类比。就像生物进化中基因和环境相互塑造一样。而且他们还做了一个很扎实的验证——用Dijkstra最短路径算法作为理论最优基准,来衡量AI自动生成的寻路技能到底有多好。结果是,从零开始的版本,路径成本差距从接近50%迅速降到个位数。而冻结优化的版本差距基本不变。这直接证明了技能确实在持续自我优化。
最后聊聊局限性吧。除了模型能力门槛,还有什么需要注意的?
两个比较大的问题。一是收敛极限未知——联合学习实验只展示了训练周期内的持续提升,但这两个相互依赖的优化过程最终会不会收敛到稳定状态,还没有数学证明。二是缺少跟传统带重置的批量训练方法的头对头比较,所以还不能完全说它就是更优的范式。
嗯,不过即便有这些局限,这个方向的意义还是很明确的。AI不仅能执行任务,还能在执行过程中不断优化自己的工具和策略——从宝可梦到家庭机器人、运维系统,这种持续自我改进的能力,可能才是通向通用具身智能真正需要的东西。
没错。我觉得这篇论文最大的贡献不是通关了宝可梦——虽然这个结果确实很酷——而是证明了一个原理:具身智能体可以从最基础的环境接口出发,自己给自己搭脚手架,而且搭出来的东西能逼近人类专家花大量时间设计的系统。这个思路一旦跑通,想象空间是很大的。