最近AI安全圈有个消息挺值得聊的——斯坦福的Percy Liang确认要在CAIS 2026大会上做主题演讲。你可能对这个名字没那么熟,但如果你关注过大模型评测,他做的HELM框架你大概率见过。今天我们就来聊聊,为什么这个人和这件事值得关注。
对,Percy Liang在AI评估这个领域其实是绝对的核心人物。他是斯坦福计算机系的副教授,同时也是Stanford HAI的核心成员——就是李飞飞他们2019年创办的那个人类中心人工智能研究所。他最出名的工作就是主导了HELM项目,简单说就是给大语言模型做了一把'统一的尺子'。
统一的尺子,这个比喻好。因为我们现在看到的情况是,每家公司发布新模型的时候都说自己是最强的,但各家选的评测基准不一样,对吧?有点像考试,你考语文我考数学,然后都说自己考了第一名。
哈哈,就是这个意思。而且问题比这还严重。传统的评测方式,比如用MMLU、HellaSwag这些单项基准测试,它只看一个维度——你答对了多少题。这就导致一个很现实的问题:刷榜。模型开发者可以针对特定测试去优化,分数很高,但实际综合能力未必好。就好比一个学生只刷真题,考试成绩不错,但你让他解决实际问题就露馅了。
所以HELM的思路是什么?它怎么解决这个问题?
HELM的核心思路是'全景式评估'。它设计了42个核心场景,涵盖各种不同的任务类型,然后从7个大维度去打分。这7个维度很有意思,不光有准确性,还包括校准性——就是模型对自己答案的置信度准不准,鲁棒性——换个说法问同一个问题它还能不能答对,公平性、偏见与刻板印象、毒性,最后还有效率。你看,它其实是把一个模型当成一个'完整的人'来考察,而不是只看它做题快不快、准不准。
嗯,这确实比单一指标全面太多了。尤其是偏见、毒性这些维度,其实直接关系到模型上线之后会不会出问题。那这个框架现在业界认可度怎么样?
认可度很高。在GPT-4、Claude、Gemini这些模型百花齐放的时代,大家确实需要一个独立的、透明的第三方评估体系。而且HELM还在持续迭代,后续版本已经扩展到了视觉语言模型和代码生成模型的评估,说明它的方法论是有可扩展性的,不是只能评文本模型。
除了HELM之外,Percy Liang还做了一件挺有意思的事——基础模型透明度指数。这个我觉得可能比HELM更'得罪人'。
哈,你这么说也没错。这个透明度指数是2023年首次发布的,用100个细分指标,从三个层面给主流AI公司打分:上游看你训练数据哪来的、用了多少算力;中间看模型架构、训练方法;下游看使用政策、影响评估这些。结果出来挺震撼的——最高分才54分,满分100。也就是说,即便是行业最头部的公司,信息披露都远远不够。
54分,这还是最高的?那确实挺说明问题的。
对,而且这个指数发布之后真的产生了实际影响。比如Meta后来在Llama模型的后续版本中就显著提高了文档完整度。你看,这就是一种通过量化评估来倒逼行业改进的方式,不是靠道德呼吁,而是直接把分数摆出来,让公众和监管机构都能看到。这在AI治理领域被认为是一个很重要的创新。
这就很有意思了。其实把这两件事放在一起看——HELM解决的是'模型能力到底怎么样'的问题,透明度指数解决的是'你到底告诉了我们多少'的问题。一个评能力,一个评态度,两手都在抓。
你总结得特别好。而且这两个方向恰好对应了AI安全领域最核心的两个关切:一是技术层面的安全,模型会不会产生有害输出、会不会被恶意利用;二是治理层面的安全,开发者有没有足够的信息公开和问责机制。
说到AI安全,我们也聊聊他要去演讲的这个CAIS大会。这两年AI安全这个话题确实从学术圈的边缘议题变成了全球关注的焦点。
是的,2023年以来有几个标志性事件。OpenAI的内部治理危机暴露了商业利益和安全研究之间的张力,欧盟AI法案正式通过标志着监管进入实质阶段,美国、中国、英国也都出台了相关政策。在这个背景下,CAIS作为专注AI安全的学术会议,重要性在不断提升。邀请Percy Liang来做主题演讲,其实也说明大会特别看重评估标准化和透明度这两个方向。
那你觉得他这次演讲可能会聊什么新东西?现在评估领域还有哪些痛点没解决?
痛点其实不少。首先是'基准污染'问题——很多评估数据集是公开的,模型训练的时候可能已经'看过答案'了,这样评出来的分数就不准。其次是评估偏差,各家机构倾向于挑对自己有利的指标来宣传,造成各说各话的混乱。还有一个更大的挑战——现在AI不只是文本模型了,多模态模型能处理图像、音频、视频,AI Agent能自主执行复杂任务,传统的文本基准测试根本覆盖不了这些新能力的边界。我猜他的演讲很可能会围绕这些前沿挑战展开。
嗯,这些问题确实都很现实。你想想,如果连评估本身都不靠谱,那建立在评估之上的监管、问责就更无从谈起了。
没错,评估是整个AI安全和治理体系的基础设施。没有好的评估,安全就是一句空话。所以Percy Liang做的这些工作,看起来是学术研究,但实际上是在给整个行业建地基。
说得好。总结一下的话,Percy Liang这个人和他的工作之所以重要,是因为他在做一件大家都需要但很少有人系统去做的事——给AI建立一套公正、全面、透明的评价体系。CAIS 2026他会带来什么新观点,确实值得期待。对AI安全和治理感兴趣的朋友,可以持续关注这个大会的动态。