播客频道 | AI Agent首次湿实验对决人类：蛋白质Binder设计Hit Rate无显著差异

今年2月底，旧金山有一场只持续了一天的Hackathon，但我觉得它可能是计算生物学领域今年最重要的一个事件。简单说就是——六个AI Agent和九支人类队伍正面对决，任务是从头设计蛋白质Binder，而且最后是用湿实验来验证结果的。不是跑个分，不是刷个排行榜，是真的拿去做实验看能不能结合。"}, {"speaker": "guest", "text": "对，这个点特别关键。以前我们看到的AI在生物领域的评测，绝大多数都停留在In-Silico阶段，就是计算机里算一算、打个分。但这次不一样，141个设计提交之后，筛出Top 100真的送去做了湿实验验证，最后确认了37个是真正能结合目标蛋白的Binder。这是第一次AI Agent和人类蛋白质设计师的湿实验闭环对比，含金量完全不同。"}, {"speaker": "host", "text": "那先介绍一下背景吧。他们设计的靶点是TREM2，这个蛋白跟阿尔茨海默症有什么关系？"}, {"speaker": "guest", "text": "TREM2是大脑里微胶质细胞表面的一个受体。你可以把微胶质细胞理解为大脑的"清洁工"，负责清除那些β-淀粉样蛋白斑块——就是阿尔茨海默症里堆积的那些"垃圾"。TREM2如果出了问题，比如有个叫R47H的突变，携带者患阿尔茨海默症的风险会提高2到4倍。所以设计一个能跟TREM2高亲和力结合的蛋白Binder，可能用来激活微胶质细胞的清除功能，或者做诊断探针，是非常前沿的方向。"}, {"speaker": "host", "text": "明白了。那核心结果呢？人类和AI Agent谁赢了？"}, {"speaker": "guest", "text": "嗯，说出来可能让很多人意外——统计上没有显著差异。人类队伍的Hit Rate是38.5%，25个Binder；Agent是34.3%，12个Binder。用Fisher精确检验算出来P值是0.83，用Mann-Whitney检验比较亲和力分布，P值是0.75。两个P值都远高于0.05的显著性阈值，意思就是这点差距完全可以用随机波动来解释。"}, {"speaker": "host", "text": "等一下，P值0.83，这基本就是说观察到的差异有83%的概率纯粹是运气造成的？"}, {"speaker": "guest", "text": "没错，就是这个意思。而且你要知道，这些Agent是怎么工作的——它们只收到一份任务Brief，然后被丢进一个叫Muni Sandbox的隔离计算环境里，自己理解任务、自己挑工具、自己跑Pipeline、自己排序、自己交出最终的10个设计。全程没有人干预。从问题理解到方案设计到执行到结果评估，四个环节全是自主完成的。"}, {"speaker": "host", "text": "这确实挺惊人的。不过我注意到排行榜前三名都是人类队伍？"}, {"speaker": "guest", "text": "对，前三是人类，Agent最好成绩排第四。最强人类大概比最强Agent高出三倍左右。但整体分布上两者是打平的。而且更值得关注的是纵向对比——之前Adaptive竞赛第一届针对EGFR的Hit Rate才2.5%，第二轮13.2%，今年1月的NIPA任务9.6%。这次TREM2任务整体Hit Rate突破了30%，是Post-AlphaFold时代的新高。他们管这叫'Binder Hit Rate的摩尔定律'。"}, {"speaker": "host", "text": "从2.5%到30%，这个跃迁确实惊人。不过我看到报告里有一个让人不太舒服的发现——筛选工具本身的精度好像有大问题？"}, {"speaker": "guest", "text": "你说的是iPSAE评分。141个设计要筛出Top 100送去做湿实验，用的就是这个In-Silico评分函数。但事后复盘发现，它对"是不是真Binder"的预测，AUC只有0.65。AUC等于1是完美分类，等于0.5是抛硬币。0.65就是比抛硬币好一点点，说实话作为一个筛选器这是很弱的。"}, {"speaker": "host", "text": "而且这个不准的筛选器对Agent的伤害更大？"}, {"speaker": "guest", "text": "对，这是一个很微妙的发现。Agent被砍掉了42%的设计，人类只被砍掉了20%。也就是说，如果有一个更准确的筛选器，Agent可能会有更多设计进入湿实验验证，最终Hit Rate说不定还会更高。这其实揭示了一个深层问题——In-Silico评估工具的精度已经成为整个蛋白质设计领域的核心瓶颈，只有湿实验才能告诉你真相。"}, {"speaker": "host", "text": "好，接下来要聊的这个发现，我觉得是整个报告里最让人细思极恐的部分——六个Agent的工具选择。"}, {"speaker": "guest", "text": "哈，你用"细思极恐"这个词很准确。Muni提供了一个很长的工具菜单，PX Design、BindCraft、RFdiffusion、BoSe Gen等等，这些工具代表了完全不同的技术路线。RFdiffusion是David Baker实验室的扩散模型方法，BindCraft是利用AlphaFold2反向优化序列，PX Design是物理能量函数加深度学习的混合架构。但结果呢？六个Agent——Claude、Quinn、Grok、Gemini、GLM、GPT——来自完全不同的公司，互相没有任何沟通，全部独立选择了PX Design。"}, {"speaker": "host", "text": "六家全选了同一个工具？"}, {"speaker": "guest", "text": "全选了。PX Design占了Agent提交设计的53%，Agent的Top 10 Binder里面，10个全部来自PX Design。为什么呢？PX Design去年8月刚发了Preprint，宣称17%到82%的Hit Rate，Marketing做得很漂亮。Agent可能通过训练数据、工具描述或者搜索发现了它。但关键不在于为什么选它，而在于这个趋同现象本身——当AI Agent成为科研Pipeline的入口，谁的工具被Agent"看见"并优先选择，谁就赢了。这几乎是科研版的SEO。"}, {"speaker": "host", "text": "这个类比太好了。那人类队伍呢？他们的工具选择是什么样的？"}, {"speaker": "guest", "text": "人类就多样化多了。冠军队伍NRes用的是Mosaic方法，一种模块化拼接策略，把已知有效的结构模块重新组合。而且这个工具甚至不在Muni的官方菜单里，是他们主动引入的。6个设计中4个成功，Hit Rate高达66.7%。同样用PX Design的话，人类的Hit Rate是72.7%，远高于Agent的44.4%。"}, {"speaker": "host", "text": "但我记得亲和力最高的那个Binder反而是Agent做出来的？"}, {"speaker": "guest", "text": "没错，3.64纳摩尔，这已经是先导化合物级别了。一般来说微摩尔级别算初步命中，纳摩尔级别就进入先导化合物范畴。对于一天之内从头设计的蛋白来说，这个数字相当突出。这就是人和Agent的本质差异——Agent靠蛮力大量生成，用数量换质量，偶尔能撞出极端好的结果；人类靠判断力精准设计，单工具效率更高，而且会做非标准化的选择。"}, {"speaker": "host", "text": "所以最后一个问题，蛋白质设计师的饭碗还保得住吗？"}, {"speaker": "guest", "text": "保得住，但端饭碗的姿势得变。其实这场Hackathon传递了三个同时发生的信号：第一，Agent端到端能力已经追平人类Hit Rate；第二，现有In-Silico筛选工具严重不足，湿实验闭环不可替代；第三，Agent在工具选择上严重趋同，缺乏多样性思维。真正危险的不是资深设计师，而是只会跑单一Pipeline的执行者。"}, {"speaker": "host", "text": "也就是说，设计师的价值正在从"会跑工具"转向"定义问题"和"做出非共识判断"。"}, {"speaker": "guest", "text": "对，未来的蛋白质设计师需要三种能力：理解AI Agent的行为模式并加以引导、在工具选择上做出非共识判断、以及设计和解读湿实验。当Agent一天就能完成从Brief到Final Design的全流程，你的价值就不再是跑Pipeline，而是定义问题、选择非显而易见的路径、在Agent的输出上做最终判断。"}, {"speaker": "host", "text": "旧金山这一天的Hackathon，与其说是一场比赛，不如说是一个信号——人机协作蛋白质设计的新时代，已经开始了。"} ],

AI Agent首次湿实验对决人类：蛋白质Binder设计Hit Rate无显著差异

更多播客

AI热点风向标·06月07日午间版

AI热点风向标·06月07日早间版

每日AI新鲜事·06月07日早间播报