最近刷到一条特别有意思的帖子,是技术圈的Boris Mann在Bluesky上说的一句话,大意是——'11个AI Agent'这个说法毫无意义,就好比我跟你说'我有11个电子表格'或者'我有11个浏览器标签页'来完成工作,你觉得这说明了什么?
哈哈,这个类比太精准了。你想啊,谁会拿'我开了11个浏览器标签页'来炫耀自己工作效率高?但偏偏现在很多公司就在干这事儿,只不过把'标签页'换成了'AI Agent'。
对,Simon Willison转发了之后讨论特别热烈。我觉得这条评论之所以戳中了很多人,是因为大家其实心里都有这个疑问——现在满世界都在说Agent,但到底什么才算Agent?这个数字11到底传递了什么信息?
其实传递的有效信息几乎为零。你说你有11个Agent,那这11个可能是11个独立的自动化流程,也可能只是把一个简单任务拆成了11个步骤,每个步骤贴个Agent标签。没有上下文,这个数字就是纯粹的噪音。这背后的根本问题是,AI Agent这个词本身就没有一个行业公认的清晰定义。
嗯,这一点特别关键。你能展开说说吗?因为我印象中Agent这个概念其实挺早就有了。
对,Agent这个概念最早可以追溯到90年代的人工智能研究,经典教科书里的定义是很严格的——能感知环境、自主决策、采取行动来实现目标的计算实体。Russell和Norvig那本《人工智能:一种现代方法》里就有明确定义。但是呢,大语言模型火了之后,这个词被重新征用了,含义从严格的学术定义一路滑向了非常宽泛的商业用语。特别是2023年AutoGPT、BabyAGI这些项目爆火之后,几乎所有人都在说Agent,但每个人说的其实不是同一个东西。
所以现在市面上叫Agent的东西,实际上差异可能非常大?
巨大的差异。你可以想象一个能力光谱。光谱的一端是最简单的ReAct模式,就是大模型在推理过程中调用一下外部工具,本质上就是个增强版的函数调用链。中间是有规划能力的系统,能做任务分解,根据中间结果动态调整路径。光谱的另一端呢,是具备长期记忆、自我反思、错误恢复甚至跨会话学习能力的复杂系统。这些东西在自主性和可靠性上的差距可能是数量级的,但在市场宣传里全都叫Agent。
这就好比说'我有11辆车',结果里面既有自行车也有火箭。
哈哈对,这个比喻好。你说你有11辆车,我完全不知道你的交通能力到底是什么水平。OpenAI的函数调用、Anthropic的工具使用、LangChain的Agent框架、AutoGPT的自主循环,这些实现差别太大了,但都顶着同一顶Agent的帽子。
说到这儿我想到一个现象,你觉得现在是不是已经出现了所谓的'Agent Washing'?就像前几年的'AI Washing'一样?
已经在发生了,而且模式完全一样。你看,2010年代中期'大数据'被滥用,什么沾点数据的都叫大数据解决方案。然后是AI Washing,2018年有研究发现欧洲40%自称AI公司的初创企业实际上根本没用任何实质性的机器学习。再往前还有区块链。现在轮到Agent了——任何带一点自动化能力的功能都叫Agent,任何多步骤的LLM调用都包装成多Agent系统。
Gartner那个技术成熟度曲线是不是又要应验了?从膨胀期望的顶峰掉到幻灭的低谷。
很可能。而且最讽刺的是,这种过度营销最终伤害的恰恰是真正在做突破性Agent技术的团队。当所有人都在喊Agent的时候,真正有价值的创新反而被淹没在噪音里了。市场信任被透支之后,整个领域都要为此买单。
那你觉得行业应该怎么做?总不能说Agent这个词不让用了吧。
当然不是不让用,而是要从数量叙事转向能力叙事。与其告诉我你有多少个Agent,不如回答几个更有价值的问题:这些Agent能独立完成什么任务?是端到端处理一个客户请求,还是只能做一个环节的文本转换?它们之间怎么协作?是真正的多Agent协同决策,还是简单的串行流水线?自主性到什么程度?需要人类介入多少次?能处理多少异常情况?
这让我想到多Agent系统其实在学术界是有很深历史的,80年代就有了。现在LLM语境下的多Agent,比如微软的AutoGen、CrewAI这些,跟经典的多Agent系统是一回事吗?
这是个特别好的问题。经典的多Agent系统里,Agent之间通过通信协议进行协商、合作甚至竞争,每个Agent有真正的信息不对称和互补能力。但现在很多所谓的多Agent系统,本质上就是同一个大模型的多次调用,让它扮演不同角色,用自然语言交互。这到底是真正继承了经典MAS的优势,还是只是一种花哨的提示工程变体?学术界还在争论。所以当企业宣称拥有多Agent系统时,我们更应该追问的是:这些Agent之间是否存在真正的能力互补?
嗯,说到底还是要回归本质。我觉得技术社区现在真正需要讨论的可能是三件事:第一,什么才算真正的AI Agent,最低能力门槛是什么;第二,怎么评估Agent的质量,得有基准测试;第三,多Agent架构到底在什么场景下才真正优于单一系统。
完全同意。在技术快速演进的时候,保持概念的清晰和诚实,比追逐数字重要得多。所以我觉得Boris Mann那条帖子的价值就在于,它用最朴素的类比提醒了所有人——下次看到某个产品说自己有N个AI Agent的时候,别被数字唬住,直接问一句:所以呢?它们具体能帮我做什么?
这可能是当下最值得记住的一个过滤器了。不看数量,看能力;不听概念,问结果。希望整个行业能少一些Agent数量竞赛,多一些对真实能力的严肃讨论。