Agent Skill维护避坑：Perplexity「超距作用」防御与评测实战指南

引言：修了A，崩了C

你有没有遇到过这种情况——改了一个 Skill 的描述，或者只是新增了一个 Skill，结果另一个完全没碰过的 Skill 开始误触发？

Perplexity 用了一个物理学术语来形容这种风险：Action at a Distance（超距作用）。在物理学中，它指两个物体没有任何接触，一个却能瞬间影响另一个。这个概念有着数百年的争论历史——牛顿的万有引力理论最早引发了这个问题，两个天体之间没有任何可见的介质连接，引力却能瞬间传递。牛顿本人对此深感不安，爱因斯坦后来也用"鬼魅般的超距作用"来批评量子纠缠现象。在 Agent 开发的语境里，这个类比极为精准：它指你改了一处 Skill 配置，另一个看似毫无关联的 Skill 却崩了。

在 Agent Skill 体系中，这不是玄学。当大模型做路由决策时，它是把所有 Skill 的名称和描述放在一起看的。所有 Skill 的 Description 被拼接成一个完整的上下文窗口送入大模型，它们之间的"介质"就是模型的注意力机制（Self-Attention）。当模型处理路由决策时，注意力机制会在所有 Skill 描述之间建立关联权重，一个新增的关键词可能改变注意力的分配模式，就像量子纠缠中测量一个粒子会瞬间影响另一个粒子的状态一样。你新增一个 Skill，或者稍微改了某个旧 Skill 的描述，本质上是在重新分配大模型的全局注意力。一个新关键词就可能改变路由边界，把原本该给 A 技能的任务抢走，或者干扰模型对已有技能的判断。

原来清晰的业务边界，井水不犯河水，因为你加的一句说明，突然就乱套了。

粗暴修改为何行不通

很多团队维护 Agent Skill 的方式非常粗暴：失败了就改描述、改主体指令；下次又错了，再改一次。短期看好像问题被修掉了，长期看却极有可能诱发超距作用，导致整个 Skill 路由体系出问题。

Perplexity 的核心理念是：不要凭感觉大刀阔斧地改主干说明。每一次失败都要先诊断类型，不同失败用不同修法，而且所有修改都必须通过评测来确认没有改坏其他地方。

所有修改都要通过评测来确认没有改坏

三类失败，三种修法

第一类：路由问题——Skill 不该加载却加载了，或该加载却没加载

这个问题出在 Description。Description 本质上是路由触发器，决定模型什么时候加载这个 Skill。

要理解这里的"路由空间"，需要认识到大模型在做的本质上是一个多分类任务：给定用户输入，从 N 个 Skill 中选择最匹配的一个或多个。大模型并不像传统软件那样用 if-else 规则做路由，而是通过语义相似度和上下文推理来做"软匹配"。这意味着 Skill 之间的边界不是硬编码的，而是由 Description 的语义向量在高维空间中的分布决定的。当两个 Skill 的 Description 在语义空间中距离过近，模型就容易混淆。这也解释了为什么传统软件工程中"模块独立性"的直觉在 Agent 开发中会失效——你以为两个 Skill 互不相关，但在模型的语义空间里它们可能是近邻。

而所有 Skill 的 Description 共享同一个路由空间，改一个词就可能抢走别人的流量。

Perplexity 的规则很明确：改 Description 必须配 Eval（评测）。

不该加载却加载了：收紧描述，同时立刻加负向评估，证明你没抢其他 Skill 的流量。
该加载却没加载：补充关键词，同时立刻加正向评估，证明它能被正确唤醒。

改 Description 不配 Eval，就是在 Agent 系统里埋雷。

第二类：执行问题——路由对了，但执行结果不对

Skill 正确加载了，但输出结果有误。这种情况下，Perplexity 提出了一个非常克制的 Prompt 工程维护法则：Append Mostly（追加为主）。

这一策略反映了 Prompt 工程从"一次性设计"向"渐进式演化"的范式转变。早期的 Prompt 工程倾向于预先设计一个完美的指令集，但实践证明这种方式在复杂系统中不可持续。追加策略的核心洞察是：大模型对指令的敏感度呈非线性分布——主干指令的微小改动可能引发全局行为漂移，而在末尾追加具体的边界条件则相对安全。这与软件工程中的"开放-封闭原则"（对扩展开放，对修改封闭）高度一致。

追加的不是往主干指令里塞大段解释，而是追加 Gotcha——真实失败留下来的坑点。那些看起来理所当然可以这么做、实际上不应该这么做的特例。Gotcha 本质上是一种"异常边界声明"，类似于编程中的 edge case 处理，但以自然语言的形式存在于 Prompt 体系中。比如：

当遇到 X 报错时，不要重试，立刻报警。

一条极简的负面特例，追加到专门的附件里，不污染主干指令。

追加Gotcha到附件，不污染主干

这就是 Perplexity 的 Gotcha 飞轮机制：每次失败变成一条边界，Skill 不靠重写变强，靠追加边界越用越稳。从 80% 的成功率提升到 99.9%，靠的不是把 Instructions 写得更厚，而是把失败边界收得更紧。

第三类：全局提示词变更——最隐蔽的超距作用

这种情况比前两种更难察觉：你的 Skill 一行没动，Description 也没问题，路由也是对的，但系统 Prompt——那个定义了 Agent 底层行为逻辑的东西——变了。

可能是另一个团队改的，对方根本不知道你的 Skill 存在。你的 Skill 里某些指令就和新的系统 Prompt 产生了逻辑冲突。比如你原来的 Skill 假设模型会「先确认再执行」，但新 Prompt 要求「默认执行，事后报告」。你的 Skill 没变，但它脚底下的地基在动。

这种情况之所以特别隐蔽，是因为不同大模型对 System Prompt 和 Skill 指令之间的优先级处理方式各不相同。有些模型严格遵循 System Prompt 的设定，当 System Prompt 与 Skill 指令冲突时会优先执行 System Prompt；有些模型则更容易被后出现的 Skill 指令覆盖。这种不确定性使得全局 Prompt 变更的影响范围几乎无法通过静态分析预判。

Perplexity 的处理方法是：立刻排查，检查当前 Skill 是否跟新设定产生了逻辑冲突或内容重复。这是一个被动防御动作，但在大模型工程化实践中必须做到位。

四层评测体系：修改的安全网

无论你是收紧 Description、补关键词还是追加 Gotcha，都会带来一个问题：你怎么知道这次修改没有破坏别的地方？靠感觉不行。

Perplexity的评测体系

Perplexity 的答案是构建多层评测套件，而且不是只测最终结果，而是把 Skill 的失败拆成几层来测：

第一层：路由测试

该加载的时候有没有加载？不该加载的时候有没有误加载？先保证 Skill 路由正确，这是所有评测的基础。

第二层：路径测试

Skill 被加载了，不代表模型真的读了该读的内容。如果重要内容放在 References 或 Assets 里，模型还要在正确条件下继续展开。这一层要测：该读附件时有没有读？不该读时有没有乱读？读了以后有没有用对？

第三层：端到端测试

把 Agent 的完整循环跑一遍，然后用一个 LLM 作为裁判（LLM-as-Judge），拿着明确的评分标准给任务的最终结果打分。

LLM-as-Judge 是近两年在 AI 评测领域兴起的重要方法论。传统的自动化测试依赖精确匹配或正则表达式，但 Agent 的输出往往是开放式的自然语言，无法用硬编码规则判断对错。LLM-as-Judge 的做法是：给裁判模型提供评分标准（Rubric）、参考答案和待评估的输出，让它按照预定义的维度打分。需要注意的是，这种方法也有其局限——研究表明 LLM 倾向于给更长的回答打高分（冗长偏差），也倾向于给排在前面的选项打高分（位置偏差）。因此，设计评分标准时需要尽可能具体和可量化，避免模糊的主观判断。

第四层：跨模型测试

这是很多 Agent 开发者忽略的一层。GPT 和 Claude/Sonic 在处理技能时的行为逻辑差异巨大，你追加的边界在这个模型上生效，换个模型可能就崩了。测试必须覆盖你所使用的所有底层大模型。

不同大模型在处理相同 Prompt 时表现出显著的行为差异，这源于多个技术层面的不同。首先是训练数据和 RLHF（基于人类反馈的强化学习）偏好的差异：GPT 系列倾向于更主动地执行指令，Claude 系列则更倾向于谨慎确认和拒绝。其次是上下文窗口的处理策略不同——有些模型对长上下文中靠前的内容更敏感（首因效应），有些则对靠后的内容更敏感（近因效应），这直接影响 Gotcha 追加在不同位置时的生效概率。此外，不同模型的 System Prompt 权重也不同，有些模型严格遵循 System Prompt，有些则更容易被 User Message 覆盖。这些差异使得跨模型测试不是"锦上添花"，而是生产环境中的刚需。

跨模型测试的重要性

Perplexity给开发者的三条忠告

在手册的最后，Perplexity 给所有 Agent 开发者留下了几条核心建议：

1. 用 Skill 自动化你自己的日常工作

如果你不去用 Agent 自动化你每周的日常工作——比如让 Agent 帮你做代码审查、写故障复盘报告——你就很难写出好的 Skill。见得越多，用得越多，就越熟悉边界在哪里。

2. 评估必须前置

在写一个新 Skill 之前，先去写 Eval，尤其是针对那些相邻但不同技能的负面测试。

这一理念与软件工程中的 TDD（测试驱动开发）一脉相承，但在 AI 工程中有其独特的意义。在传统 TDD 中，测试用例定义了代码的预期行为；在 Agent 开发中，Eval 不仅定义了 Skill 的预期输出，更重要的是定义了 Skill 的"不应该做什么"——即负面测试。这是因为大模型的行为空间远比确定性代码大，一个 Skill 可能在你意想不到的输入上被触发。负面测试的本质是在路由空间中为 Skill 划定"禁区"，防止它越界。这种思维方式要求开发者在设计 Skill 时就思考它与相邻 Skill 的边界，而不是等到线上出了问题再补救。

3. 少即是多

千万不要一上来就给模型写一篇万字长文。Skill 一开始就应该是一张薄薄的纸，不要预想模型会怎么犯错。让它去真实环境里跑，等它真的失败了，再通过追加 Gotcha 的飞轮让它自然地生长出厚度。

总结

一个好的 Agent Skill 不是靠聪明的大脑一气呵成写出来的，而是在评测体系的保护下，在真实失败里一点点追加出来的。如果你只是失败一次就凭感觉去改描述、加规则，你的 Skill 体系迟早会失控。

只有把每一次失败都压缩成一个精准的 Gotcha，在评测套件的保护下谨慎迭代，Skill 才能从一堆指令真正蜕变成稳定可靠的系统资产。记住：修 Skill 不是写作文，而是做手术——每一刀都要精准，每一刀都要有检查。