播客频道 | AI Agent概念滥用：为什么"11个AI Agent"毫无意义？

最近刷到一条特别有意思的帖子，是技术圈的Boris Mann在Bluesky上说的一句话，大意是——'11个AI Agent'这个说法毫无意义，就好比我跟你说'我有11个电子表格'或者'我有11个浏览器标签页'来完成工作，你觉得这说明了什么？哈哈，这个类比太精准了。你想啊，谁会拿'我开了11个浏览器标签页'来炫耀自己工作效率高？但偏偏现在很多公司就在干这事儿，只不过把'标签页'换成了'AI Agent'。对，Simon Willison转发了之后讨论特别热烈。我觉得这条评论之所以戳中了很多人，是因为大家其实心里都有这个疑问——现在满世界都在说Agent，但到底什么才算Agent？这个数字11到底传递了什么信息？其实传递的有效信息几乎为零。你说你有11个Agent，那这11个可能是11个独立的自动化流程，也可能只是把一个简单任务拆成了11个步骤，每个步骤贴个Agent标签。没有上下文，这个数字就是纯粹的噪音。这背后的根本问题是，AI Agent这个词本身就没有一个行业公认的清晰定义。嗯，这一点特别关键。你能展开说说吗？因为我印象中Agent这个概念其实挺早就有了。对，Agent这个概念最早可以追溯到90年代的人工智能研究，经典教科书里的定义是很严格的——能感知环境、自主决策、采取行动来实现目标的计算实体。Russell和Norvig那本《人工智能：一种现代方法》里就有明确定义。但是呢，大语言模型火了之后，这个词被重新征用了，含义从严格的学术定义一路滑向了非常宽泛的商业用语。特别是2023年AutoGPT、BabyAGI这些项目爆火之后，几乎所有人都在说Agent，但每个人说的其实不是同一个东西。所以现在市面上叫Agent的东西，实际上差异可能非常大？巨大的差异。你可以想象一个能力光谱。光谱的一端是最简单的ReAct模式，就是大模型在推理过程中调用一下外部工具，本质上就是个增强版的函数调用链。中间是有规划能力的系统，能做任务分解，根据中间结果动态调整路径。光谱的另一端呢，是具备长期记忆、自我反思、错误恢复甚至跨会话学习能力的复杂系统。这些东西在自主性和可靠性上的差距可能是数量级的，但在市场宣传里全都叫Agent。这就好比说'我有11辆车'，结果里面既有自行车也有火箭。哈哈对，这个比喻好。你说你有11辆车，我完全不知道你的交通能力到底是什么水平。OpenAI的函数调用、Anthropic的工具使用、LangChain的Agent框架、AutoGPT的自主循环，这些实现差别太大了，但都顶着同一顶Agent的帽子。说到这儿我想到一个现象，你觉得现在是不是已经出现了所谓的'Agent Washing'？就像前几年的'AI Washing'一样？已经在发生了，而且模式完全一样。你看，2010年代中期'大数据'被滥用，什么沾点数据的都叫大数据解决方案。然后是AI Washing，2018年有研究发现欧洲40%自称AI公司的初创企业实际上根本没用任何实质性的机器学习。再往前还有区块链。现在轮到Agent了——任何带一点自动化能力的功能都叫Agent，任何多步骤的LLM调用都包装成多Agent系统。 Gartner那个技术成熟度曲线是不是又要应验了？从膨胀期望的顶峰掉到幻灭的低谷。很可能。而且最讽刺的是，这种过度营销最终伤害的恰恰是真正在做突破性Agent技术的团队。当所有人都在喊Agent的时候，真正有价值的创新反而被淹没在噪音里了。市场信任被透支之后，整个领域都要为此买单。那你觉得行业应该怎么做？总不能说Agent这个词不让用了吧。当然不是不让用，而是要从数量叙事转向能力叙事。与其告诉我你有多少个Agent，不如回答几个更有价值的问题：这些Agent能独立完成什么任务？是端到端处理一个客户请求，还是只能做一个环节的文本转换？它们之间怎么协作？是真正的多Agent协同决策，还是简单的串行流水线？自主性到什么程度？需要人类介入多少次？能处理多少异常情况？这让我想到多Agent系统其实在学术界是有很深历史的，80年代就有了。现在LLM语境下的多Agent，比如微软的AutoGen、CrewAI这些，跟经典的多Agent系统是一回事吗？这是个特别好的问题。经典的多Agent系统里，Agent之间通过通信协议进行协商、合作甚至竞争，每个Agent有真正的信息不对称和互补能力。但现在很多所谓的多Agent系统，本质上就是同一个大模型的多次调用，让它扮演不同角色，用自然语言交互。这到底是真正继承了经典MAS的优势，还是只是一种花哨的提示工程变体？学术界还在争论。所以当企业宣称拥有多Agent系统时，我们更应该追问的是：这些Agent之间是否存在真正的能力互补？嗯，说到底还是要回归本质。我觉得技术社区现在真正需要讨论的可能是三件事：第一，什么才算真正的AI Agent，最低能力门槛是什么；第二，怎么评估Agent的质量，得有基准测试；第三，多Agent架构到底在什么场景下才真正优于单一系统。完全同意。在技术快速演进的时候，保持概念的清晰和诚实，比追逐数字重要得多。所以我觉得Boris Mann那条帖子的价值就在于，它用最朴素的类比提醒了所有人——下次看到某个产品说自己有N个AI Agent的时候，别被数字唬住，直接问一句：所以呢？它们具体能帮我做什么？这可能是当下最值得记住的一个过滤器了。不看数量，看能力；不听概念，问结果。希望整个行业能少一些Agent数量竞赛，多一些对真实能力的严肃讨论。

AI Agent概念滥用：为什么"11个AI Agent"毫无意义？

更多播客

AI热点风向标·06月07日午间版

AI热点风向标·06月07日早间版

每日AI新鲜事·06月07日早间播报

AI Agent概念滥用：为什么"11个AI Agent"毫无意义？

更多播客

AI热点风向标·06月07日午间版

AI热点风向标·06月07日早间版

每日AI新鲜事·06月07日早间播报