今年2月底,旧金山有一场只持续了一天的Hackathon,但我觉得它可能是计算生物学领域今年最重要的一个事件。简单说就是——六个AI Agent和九支人类队伍正面对决,任务是从头设计蛋白质Binder,而且最后是用湿实验来验证结果的。不是跑个分,不是刷个排行榜,是真的拿去做实验看能不能结合。"},
{"speaker": "guest", "text": "对,这个点特别关键。以前我们看到的AI在生物领域的评测,绝大多数都停留在In-Silico阶段,就是计算机里算一算、打个分。但这次不一样,141个设计提交之后,筛出Top 100真的送去做了湿实验验证,最后确认了37个是真正能结合目标蛋白的Binder。这是第一次AI Agent和人类蛋白质设计师的湿实验闭环对比,含金量完全不同。"},
{"speaker": "host", "text": "那先介绍一下背景吧。他们设计的靶点是TREM2,这个蛋白跟阿尔茨海默症有什么关系?"},
{"speaker": "guest", "text": "TREM2是大脑里微胶质细胞表面的一个受体。你可以把微胶质细胞理解为大脑的"清洁工",负责清除那些β-淀粉样蛋白斑块——就是阿尔茨海默症里堆积的那些"垃圾"。TREM2如果出了问题,比如有个叫R47H的突变,携带者患阿尔茨海默症的风险会提高2到4倍。所以设计一个能跟TREM2高亲和力结合的蛋白Binder,可能用来激活微胶质细胞的清除功能,或者做诊断探针,是非常前沿的方向。"},
{"speaker": "host", "text": "明白了。那核心结果呢?人类和AI Agent谁赢了?"},
{"speaker": "guest", "text": "嗯,说出来可能让很多人意外——统计上没有显著差异。人类队伍的Hit Rate是38.5%,25个Binder;Agent是34.3%,12个Binder。用Fisher精确检验算出来P值是0.83,用Mann-Whitney检验比较亲和力分布,P值是0.75。两个P值都远高于0.05的显著性阈值,意思就是这点差距完全可以用随机波动来解释。"},
{"speaker": "host", "text": "等一下,P值0.83,这基本就是说观察到的差异有83%的概率纯粹是运气造成的?"},
{"speaker": "guest", "text": "没错,就是这个意思。而且你要知道,这些Agent是怎么工作的——它们只收到一份任务Brief,然后被丢进一个叫Muni Sandbox的隔离计算环境里,自己理解任务、自己挑工具、自己跑Pipeline、自己排序、自己交出最终的10个设计。全程没有人干预。从问题理解到方案设计到执行到结果评估,四个环节全是自主完成的。"},
{"speaker": "host", "text": "这确实挺惊人的。不过我注意到排行榜前三名都是人类队伍?"},
{"speaker": "guest", "text": "对,前三是人类,Agent最好成绩排第四。最强人类大概比最强Agent高出三倍左右。但整体分布上两者是打平的。而且更值得关注的是纵向对比——之前Adaptive竞赛第一届针对EGFR的Hit Rate才2.5%,第二轮13.2%,今年1月的NIPA任务9.6%。这次TREM2任务整体Hit Rate突破了30%,是Post-AlphaFold时代的新高。他们管这叫'Binder Hit Rate的摩尔定律'。"},
{"speaker": "host", "text": "从2.5%到30%,这个跃迁确实惊人。不过我看到报告里有一个让人不太舒服的发现——筛选工具本身的精度好像有大问题?"},
{"speaker": "guest", "text": "你说的是iPSAE评分。141个设计要筛出Top 100送去做湿实验,用的就是这个In-Silico评分函数。但事后复盘发现,它对"是不是真Binder"的预测,AUC只有0.65。AUC等于1是完美分类,等于0.5是抛硬币。0.65就是比抛硬币好一点点,说实话作为一个筛选器这是很弱的。"},
{"speaker": "host", "text": "而且这个不准的筛选器对Agent的伤害更大?"},
{"speaker": "guest", "text": "对,这是一个很微妙的发现。Agent被砍掉了42%的设计,人类只被砍掉了20%。也就是说,如果有一个更准确的筛选器,Agent可能会有更多设计进入湿实验验证,最终Hit Rate说不定还会更高。这其实揭示了一个深层问题——In-Silico评估工具的精度已经成为整个蛋白质设计领域的核心瓶颈,只有湿实验才能告诉你真相。"},
{"speaker": "host", "text": "好,接下来要聊的这个发现,我觉得是整个报告里最让人细思极恐的部分——六个Agent的工具选择。"},
{"speaker": "guest", "text": "哈,你用"细思极恐"这个词很准确。Muni提供了一个很长的工具菜单,PX Design、BindCraft、RFdiffusion、BoSe Gen等等,这些工具代表了完全不同的技术路线。RFdiffusion是David Baker实验室的扩散模型方法,BindCraft是利用AlphaFold2反向优化序列,PX Design是物理能量函数加深度学习的混合架构。但结果呢?六个Agent——Claude、Quinn、Grok、Gemini、GLM、GPT——来自完全不同的公司,互相没有任何沟通,全部独立选择了PX Design。"},
{"speaker": "host", "text": "六家全选了同一个工具?"},
{"speaker": "guest", "text": "全选了。PX Design占了Agent提交设计的53%,Agent的Top 10 Binder里面,10个全部来自PX Design。为什么呢?PX Design去年8月刚发了Preprint,宣称17%到82%的Hit Rate,Marketing做得很漂亮。Agent可能通过训练数据、工具描述或者搜索发现了它。但关键不在于为什么选它,而在于这个趋同现象本身——当AI Agent成为科研Pipeline的入口,谁的工具被Agent"看见"并优先选择,谁就赢了。这几乎是科研版的SEO。"},
{"speaker": "host", "text": "这个类比太好了。那人类队伍呢?他们的工具选择是什么样的?"},
{"speaker": "guest", "text": "人类就多样化多了。冠军队伍NRes用的是Mosaic方法,一种模块化拼接策略,把已知有效的结构模块重新组合。而且这个工具甚至不在Muni的官方菜单里,是他们主动引入的。6个设计中4个成功,Hit Rate高达66.7%。同样用PX Design的话,人类的Hit Rate是72.7%,远高于Agent的44.4%。"},
{"speaker": "host", "text": "但我记得亲和力最高的那个Binder反而是Agent做出来的?"},
{"speaker": "guest", "text": "没错,3.64纳摩尔,这已经是先导化合物级别了。一般来说微摩尔级别算初步命中,纳摩尔级别就进入先导化合物范畴。对于一天之内从头设计的蛋白来说,这个数字相当突出。这就是人和Agent的本质差异——Agent靠蛮力大量生成,用数量换质量,偶尔能撞出极端好的结果;人类靠判断力精准设计,单工具效率更高,而且会做非标准化的选择。"},
{"speaker": "host", "text": "所以最后一个问题,蛋白质设计师的饭碗还保得住吗?"},
{"speaker": "guest", "text": "保得住,但端饭碗的姿势得变。其实这场Hackathon传递了三个同时发生的信号:第一,Agent端到端能力已经追平人类Hit Rate;第二,现有In-Silico筛选工具严重不足,湿实验闭环不可替代;第三,Agent在工具选择上严重趋同,缺乏多样性思维。真正危险的不是资深设计师,而是只会跑单一Pipeline的执行者。"},
{"speaker": "host", "text": "也就是说,设计师的价值正在从"会跑工具"转向"定义问题"和"做出非共识判断"。"},
{"speaker": "guest", "text": "对,未来的蛋白质设计师需要三种能力:理解AI Agent的行为模式并加以引导、在工具选择上做出非共识判断、以及设计和解读湿实验。当Agent一天就能完成从Brief到Final Design的全流程,你的价值就不再是跑Pipeline,而是定义问题、选择非显而易见的路径、在Agent的输出上做最终判断。"},
{"speaker": "host", "text": "旧金山这一天的Hackathon,与其说是一场比赛,不如说是一个信号——人机协作蛋白质设计的新时代,已经开始了。"}
],