播客频道 | Continual Harness：AI自动构建脚手架通关宝可梦RPG

今天聊一个特别有意思的研究——普林斯顿和谷歌DeepMind联合搞了个框架，让AI从零开始，自己给自己造工具，然后通关了好几款宝可梦RPG。你第一次看到这个结果的时候什么感觉？说实话，我第一反应是——等等，这不是作弊吧？因为之前的研究已经反复证明了，哪怕是GPT-4V、Gemini这种顶级多模态模型，在宝可梦里连城镇导航都搞不定。结果现在告诉我AI不仅通关了，还是自己造工具通关的？这个跨度有点大。对，这里面有个关键概念需要先解释一下——脚手架，英文叫Scaffolding。你可以把它理解成什么？你可以这么想：大模型本身就像一个很聪明但是手无寸铁的人。脚手架就是你给他配的装备——系统提示词告诉他该怎么思考，子智能体帮他分工，技能库是他积累的招式，记忆库是他的笔记本。在代码领域，像Claude Code这些工具已经把脚手架做得很成熟了。但在具身智能领域，就是AI需要跟环境持续互动的场景，一直没有好的通用方案。所以之前的做法是人工来设计这些脚手架？没错。之前Gemini Plays Pokemon这个项目，早期就是典型的人类在环模式——研究人员反复看AI的游戏录像，发现它卡在哪了，然后手动调整脚手架。比如发现AI不会打属性克制，就手动加一个属性克制表；发现AI迷路了，就加一个寻路算法。一步步迭代，从最简单的截图加按钮，慢慢搭成了一个多智能体的复杂架构。这个过程听起来效率挺低的。非常低。而且你想，宝可梦RPG为什么难？它不是单一维度的挑战。你得在复杂地图里找路，这是空间导航；你得搞清楚火系克草系，这是策略决策；你得培养队伍管理资源，这是长期规划；你还得跟NPC对话理解任务线索。这些能力全得有，缺一个都玩不转。人工给每个环节都设计脚手架，工作量巨大。所以Continual Harness的核心思路就是——让AI自己来干这件事？对，而且是非常彻底的那种。研究团队做了一个很大胆的决定：把所有人工编写的子智能体全部去掉，只给模型提供最原始的工具——就是对脚手架四个组件做增删改的能力。然后让AI在游戏过程中自己构建需要的一切。具体怎么实现的呢？我看论文里提到了一个双循环架构。嗯，这个设计挺精巧的。内循环就是正常的游戏交互——AI看到画面，做出动作。外循环才是关键，有一个叫Refiner的模块，它会定期回顾AI最近的游戏轨迹，识别失败模式。比如发现AI在同一个地方转圈圈了，或者工具调用老是失败，或者目标一直没推进。然后它就会生成对应的优化操作：重写系统提示词、创建新的子智能体、把成功的操作序列代码化成新技能、更新记忆。这里有个很重要的点——它不需要重置环境。这是核心优势之一。你想，很多强化学习方法是基于重置的——失败了就从头来，反复试。但这有两个大问题：第一，每次重置后之前积累的失败信息就丢了；第二，游戏后期才出现的高难度挑战，比如精英四的战斗、复杂解谜，基于重置的方法可能根本接触不到。Continual Harness的优化质量是随时间累积的，而且现实中很多场景——比如持续运行的机器人、运维系统——根本没法随意重置。那实际效果怎么样？数据说话。数据相当漂亮。用最强的Gemini 3 Pro，Continual Harness花大约130美元完成了100%的里程碑。而极简版的脚手架花了215美元，只完成了90%。成本降了40%，完成率反而更高。而且到2025年，这套系统已经先后通关了宝可梦蓝、宝可梦黄遗产版和宝可梦水晶，成为首个通关多款宝可梦RPG的AI系统。听起来像是银弹了。但我猜肯定有坑？你猜对了，有一个非常重要的发现——模型能力门槛。强模型Gemini 3 Pro收益显著，中等模型Flash表现不稳定方差很大，而弱模型Flash Lite用了这个框架反而比不用还差。原因也好理解：能力不够的模型，光是正常玩游戏就已经很吃力了，你还让它同时去优化脚手架，等于分散了本来就不够用的认知资源。就像你让一个刚学开车的人边开车边修车，那肯定翻车。哈哈，这个比喻很形象。那开源模型呢？有没有什么办法让它们也能用上？有，论文用Gemma 4系列做了联合学习的验证。就是同时优化模型权重和脚手架状态。一个特别有意思的发现是：单独做监督微调不行，单独做离线强化学习也不行，只有把两者结合成联合学习循环，才开始出现持续的游戏进度提升。这说明模型能力和工具能力之间有深度耦合——模型变强了能写出更好的工具，更好的工具又让模型能处理更复杂的任务，形成正反馈。有点像协同进化的味道。对，论文里也提到了这个类比。就像生物进化中基因和环境相互塑造一样。而且他们还做了一个很扎实的验证——用Dijkstra最短路径算法作为理论最优基准，来衡量AI自动生成的寻路技能到底有多好。结果是，从零开始的版本，路径成本差距从接近50%迅速降到个位数。而冻结优化的版本差距基本不变。这直接证明了技能确实在持续自我优化。最后聊聊局限性吧。除了模型能力门槛，还有什么需要注意的？两个比较大的问题。一是收敛极限未知——联合学习实验只展示了训练周期内的持续提升，但这两个相互依赖的优化过程最终会不会收敛到稳定状态，还没有数学证明。二是缺少跟传统带重置的批量训练方法的头对头比较，所以还不能完全说它就是更优的范式。嗯，不过即便有这些局限，这个方向的意义还是很明确的。AI不仅能执行任务，还能在执行过程中不断优化自己的工具和策略——从宝可梦到家庭机器人、运维系统，这种持续自我改进的能力，可能才是通向通用具身智能真正需要的东西。没错。我觉得这篇论文最大的贡献不是通关了宝可梦——虽然这个结果确实很酷——而是证明了一个原理：具身智能体可以从最基础的环境接口出发，自己给自己搭脚手架，而且搭出来的东西能逼近人类专家花大量时间设计的系统。这个思路一旦跑通，想象空间是很大的。

Continual Harness：AI自动构建脚手架通关宝可梦RPG

更多播客

AI热点风向标·06月07日午间版

AI热点风向标·06月07日早间版

每日AI新鲜事·06月07日早间播报