AI Agent首次湿实验对决人类：蛋白质Binder设计Hit Rate无显著差异

2026年2月28日，旧金山一场仅持续一天的Hackathon，悄然改写了计算生物学的历史。九支人类队伍对阵六个全自主LLM Agent（Claude、Quinn、Grok、Gemini、GLM、GPT），任务是针对阿尔茨海默症相关的微胶质细胞受体TRAM-2，从头设计蛋白Binder。141个设计提交，Top 100进入湿实验验证，最终37个被确认为真正的Binder。

TRAM-2（TREM2，Triggering Receptor Expressed on Myeloid Cells 2）是一种在大脑微胶质细胞表面高度表达的跨膜受体。微胶质细胞是中枢神经系统的常驻免疫细胞，负责清除β-淀粉样蛋白斑块、修剪突触以及调控神经炎症。TREM2的功能缺失突变（如R47H）被全基因组关联研究（GWAS）确认为阿尔茨海默症最强的单基因风险因子之一，携带者患病风险提高2-4倍。设计能与TREM2高亲和力结合的蛋白Binder，可能用于激活微胶质细胞的吞噬功能或作为诊断探针，是当前神经退行性疾病药物开发的前沿方向。

这不是又一个Benchmark排行榜，而是第一次真正意义上的AI Agent与人类蛋白质设计师湿实验闭环对比。结果令人震惊，也令人深思。

AI Agent追平人类蛋白质设计师：Hit Rate统计无显著差异

先看核心数据：人类队伍的Hit Rate为38.5%（25个Binder），Agent的Hit Rate为34.3%（12个Binder）。Fisher精确检验P值等于0.83，pKD分布的Mann-Whitney检验P值等于0.75——统计意义上，两者没有任何显著差异。

这里有必要解释这两项统计检验的含义。Fisher精确检验是一种用于分析2×2列联表的非参数统计方法，特别适用于样本量较小的情况——它比较的是人类和Agent两组的Binder成功/失败比例是否存在显著差异。P值0.83意味着观察到的差异有83%的概率仅由随机波动造成，远高于通常的显著性阈值0.05。Mann-Whitney U检验则比较两组pKD分布的中位数差异，P值0.75同样表明两组的亲和力分布没有统计学上的显著区别。两项检验共同构成了"AI追平人类"这一结论的严格统计学基础。

排行榜前三名确实都是人类，但Agent的最好成绩排在第四，最强人类仅比最强Agent高出约三倍。考虑到每个Agent只收到一份Brief，然后被丢进Muni的Sandbox——一个为LLM Agent设计的隔离计算环境，Agent在其中可以访问预装的蛋白设计工具链、执行计算任务、读取输出结果并做出后续决策——自己挑工具、自己跑Pipeline、自己排序、自己交出Final 10，这个成绩已经相当惊人。这一全流程涵盖了科研中的问题理解、方案设计、实验执行和结果评估四个核心环节，是当前AI Agent在科学发现领域最完整的端到端能力测试之一。

Tram-2 Binder设计Hit Rate达到Post-AlphaFold时代新高

更值得关注的是历史纵向对比。Adaptive竞赛第一届针对EGFR的Hit Rate只有2.5%，第二轮提升到13.2%，今年1月NIPA任务为9.6%。而这场TRAM-2任务的整体Hit Rate突破30%，是Post-AlphaFold时代Binder设计的新高水位线。Adaptive团队将其称为"Binder Hit Rate的摩尔定律"。

要理解这一进步的意义，需要了解蛋白Binder设计的基本原理。从头设计一个全新的蛋白质分子使其高亲和力结合目标蛋白，需要精确计算蛋白-蛋白相互作用界面的形状互补性、氢键网络、疏水堆积和静电匹配。传统方法依赖Rosetta等能量函数驱动的计算框架，而AlphaFold2的出现使结构预测精度大幅提升，催生了RFdiffusion、BindCraft等基于深度学习的新一代设计工具。衡量Binder成功与否的核心指标正是Hit Rate（提交设计中真正能结合目标的比例）和pKD（解离常数的负对数，数值越高表示亲和力越强）。从2.5%到30%的Hit Rate跃迁，标志着这些新工具正在从"偶尔成功"走向"可靠产出"。

In-Silico评分器精度不足：Agent设计被过度淘汰

然而，"追平"这个结论建立在一个并不精确的筛选机制之上。

141个设计如何筛出Top 100？用的是BoSe 2的iPSAE评分。iPSAE（integrated Protein Structure and Energy）是一种综合考虑结构预测置信度、界面能量和接触面积等特征的In-Silico评分函数。但Muni团队在湿实验做完后回头复盘发现，iPSAE对于"是否为Binder"的二分类预测，AUC仅为0.65——比随机猜测强一些，但离一个可靠的分类器差得很远。

AUC（Area Under the ROC Curve，受试者工作特征曲线下面积）是衡量二分类器性能的标准指标：AUC=1.0表示完美分类，AUC=0.5等同于随机猜测。iPSAE的AUC仅为0.65，意味着它在区分"真正能结合的Binder"和"不能结合的设计"时，准确性仅略优于抛硬币。这一发现对整个计算生物学领域具有警示意义——许多研究依赖类似的In-Silico指标来筛选候选分子，但这些指标的实际预测能力可能远低于预期。

筛选过程中Agent设计损失更大

更微妙的是，这个不准的Filter对Agent的设计砍得更狠：Agent损失了42%的设计，而人类只损失了20%。换句话说，如果换一个更准确的筛选器，Agent可能有更多设计进入湿实验验证，最终的Hit Rate或许会更高。

这揭示了一个深层问题：当前In-Silico评估工具的精度，已经成为制约蛋白质设计领域进步的核心瓶颈。 AUC 0.65意味着我们对设计好坏的预判能力依然薄弱，只有湿实验闭环才能给出真相。

六个LLM Agent集体选择PX Design：工具趋同现象值得警惕

这是整篇报告中最让人"后背一凉"的发现。

Muni提供的工具菜单很长：PX Design、BindCraft、RF Diffusion、BoSe Gen等等。这些工具代表了截然不同的技术路线——PX Design基于物理能量函数与深度学习的混合架构；RFdiffusion由David Baker实验室开发，基于扩散模型（Diffusion Model）从噪声中逐步生成蛋白骨架结构，是当前最具影响力的de novo设计方法之一；BindCraft则侧重于利用AlphaFold2的结构预测能力反向优化序列，通过迭代优化使预测结构收敛到理想的结合构型。不同工具代表了不同的设计哲学——从物理驱动到数据驱动，从全局生成到模块组装。

然而，六个Agent来自完全不同的公司，没有互相沟通，却全部独立地选择了PX Design。Claude、Quinn、Grok、Gemini、GLM、GPT，六家齐全。

PX Design的Preprint宣称17-82%的Hit Rate

PX Design占了Agent提交设计的53%，Agent的Top 10 Binder中，10个全部来自PX Design。

为什么是PX Design？它确实表现不错，去年8月刚发了Preprint，Marketing做得漂亮，声称17-82%的Hit Rate。Agent可能通过Knowledge Cutoff之后的训练数据、工具列表描述或Web Search发现了它。具体机制不重要，重要的是结果：当AI Agent成为科研Pipeline的入口，谁的工具被Agent"看见"并优先选择，谁就赢了。

这意味着一种全新的竞争维度正在形成——工具开发者不仅要让人类科学家认可自己的工具，还要让AI Agent能够发现并优先选择自己的工具。这几乎是"SEO for AI Agent"的科研版本，也是计算生物学工具生态面临的全新挑战。

蛮力生成vs专家判断力：人与AI Agent的本质差异

按工具拆分来看，人机差异更加鲜明。

冠军队伍NRes使用的是Mosaic方法——一种采用模块化拼接策略的设计方法，将已知有效的结构模块重新组合以构建新的结合界面——6个设计中4个成功，Hit Rate高达66.7%。值得注意的是，Mosaic甚至不在Muni的官方工具菜单里，这意味着冠军队伍主动引入了非标准化的工具选择，体现了人类设计师在方法论层面的创造性判断。同样使用PX Design，人类的Hit Rate为72.7%，远高于Agent的44.4%。

Agent用PX Design撞出了最紧的Binder：3.64纳摩尔

但有趣的是，完全"压满"PX Design的Agent，反而撞出了亲和力最高的Binder——3.64纳摩尔。这个数字在整个竞赛中排名靠前。在药物开发的语境中，KD值越小表示Binder与靶点的结合越紧密。一般而言，KD在微摩尔（μM）级别的分子被视为初步命中（Hit），纳摩尔级别则进入先导化合物（Lead）的范畴，而临床候选药物通常需要达到亚纳摩尔甚至皮摩尔级别。3.64 nM的亲和力意味着该设计已经具备了作为先导分子进一步优化的潜力，无需经过大量亲和力成熟（Affinity Maturation）步骤即可进入功能验证阶段。对于一个在Hackathon中一天内从头设计的蛋白来说，这一数字尤为突出。

这揭示了人与AI Agent在蛋白质设计中的本质差异：Agent靠蛮力大量生成，人类靠判断力精准设计。 人类设计师会根据经验选择不同工具、调整参数、做出非标准化的判断；Agent则倾向于找到一个"看起来最好"的工具然后大量生成，用数量换质量。

两种策略各有优劣，但当计算成本持续下降时，蛮力策略的性价比会越来越高。

蛋白质设计师的未来：不是会不会被取代而是如何转型

回到最核心的问题：AI Agent时代，蛋白质设计师的饭碗保不保？

短期来看，真正危险的不是资深设计师，而是只会跑单一Pipeline的执行者。 这场Hackathon的真正信号是三件事同时发生：

AI Agent端到端能力已追平人类Hit Rate——从理解任务、选择工具、运行计算到提交结果，全程无人干预
现有In-Silico Filter严重不足（AUC仅0.65）——湿实验闭环仍然不可替代
Agent在工具选择上严重单一化——缺乏人类设计师的多样性思维和非共识判断

设计师的饭碗保得住，但端着饭碗的姿势必须改变。未来的蛋白质设计师需要具备三种核心能力：理解AI Agent的行为模式并加以引导的能力、在工具选择上做出非共识判断的能力、以及设计和解读湿实验的能力。

当AI Agent能在一天内完成从Brief到Final Design的全流程，设计师的价值不再是"跑Pipeline"，而是定义问题、选择非显而易见的路径、以及在Agent的输出上做出最终判断。这场旧金山的一日Hackathon，不是终点，而是人机协作蛋白质设计新时代的起点。

核心要点

六个全自主LLM Agent在蛋白Binder设计湿实验中首次追平人类，Hit Rate分别为34.3%和38.5%，统计上无显著差异
现有In-Silico筛选工具（iPSAE）AUC仅0.65，对Agent设计的淘汰率（42%）远高于人类（20%），湿实验闭环仍是验证真相的唯一途径
六个来自不同公司的Agent在无沟通情况下全部选择了PX Design工具，暴露出Agent工具选择严重趋同的问题
人类设计师通过判断力和工具多样性取得更高单工具Hit Rate，但Agent凭借蛮力策略撞出了亲和力最高的Binder（3.64纳摩尔）
蛋白设计师的核心价值正从执行Pipeline转向定义问题、非共识工具选择和湿实验判断

AI Agent首次湿实验对决人类：蛋白质Binder设计Hit Rate无显著差异

AI Agent追平人类蛋白质设计师：Hit Rate统计无显著差异

In-Silico评分器精度不足：Agent设计被过度淘汰

六个LLM Agent集体选择PX Design：工具趋同现象值得警惕

蛮力生成vs专家判断力：人与AI Agent的本质差异

蛋白质设计师的未来：不是会不会被取代而是如何转型

核心要点

相关推荐

纽约中央公园发现新物种？城市昆虫猎捕计划揭秘

希格斯玻色子发现始末：亲历者讲述「上帝粒子」背后的故事

SciMDR：7B小模型如何在科研推理上比肩GPT-5