播客频道 | Agent可观测性完整方案：追踪、评估与Red Teaming实战指南

最近有个话题我特别想聊——AI Agent的可观测性。你看现在大家都在搞Agent，Demo阶段看着都挺好的，一到生产环境就各种翻车。其实背后有个根本性的问题，就是Agent它天生是非确定性的。对，这个点特别关键。你想啊，传统写代码，一个函数传同样的参数进去，出来的结果一定是一样的。但大语言模型不是这样，它底层是基于概率分布做token采样的，有个temperature参数控制随机性，上下文窗口还在动态变化，模型版本可能悄悄就更新了。这些加在一起，你同一个问题问两遍，答案可能就不一样。而且在Agent场景下这个问题还被放大了，对吧？因为Agent不光要生成文本，还要决定调哪个工具、怎么规划多步骤任务。没错，每一步的微小偏差都可能像蝴蝶效应一样，最终导致结果差很远。所以传统的单元测试、集成测试那一套，在Agent系统里是远远不够的。你必须引入统计性的评估框架。Microsoft Foundry团队在AI Engineer大会上把应对策略归纳成三个维度：评估、监控、优化。他们打了个特别好的比方——评估就像建筑检查员来检查你的房子是否合规，而安全测试呢，是请人来尝试闯入你的房子，证明你的防护确实有效。这个比方确实很形象。那具体到Foundry这个平台，它是怎么帮开发者落地的？我知道现在光Azure上的模型就有上万个，开发者可能连选模型都头大。嗯，Foundry提供了两条路径。第一条是Portal快速原型，在ai.azure.com上，几分钟就能创建项目，系统会自动推荐GPT-4.1作为起始模型，你可以加系统提示词、加工具比如Bing搜索、加知识库。关键是它不只是个玩具环境，每次跟Agent的交互都会自动生成追踪记录，token消耗、响应时间、AI质量和安全指标全都有。等于说从第一天开始，可观测性就是内建的，不是事后再补。对，这个设计理念很重要。然后等你在Portal上验证了概念，可以无缝切换到SDK做更复杂的开发。他们提供了完整的Lab路径，从环境连接、创建基础Agent、添加工具，一直到构建多Agent协作系统、配置追踪、运行评估和安全测试，一步步来。你提到多Agent协作，这个我特别感兴趣。现在很多人在搞多Agent架构，但我觉得追踪和调试的难度也指数级上升了。你说到点上了。Foundry引入了一个叫Team Agent的概念，就是把一个大而全的单体Agent拆成多个专业化的子Agent，比如航班Agent、酒店Agent、租车Agent，然后用一个编排器来协调。这种架构好处很多，关注点分离、不同子Agent可以用不同成本级别的模型、可以独立迭代。但问题也来了——Agent之间通信的延迟会累积，编排逻辑变复杂，跨Agent的追踪和归因也变难了。那Foundry的追踪系统是怎么解决这个问题的？它基于OpenTelemetry标准构建，这个特别聪明。OpenTelemetry是CNCF托管的开源可观测性框架，统一了追踪、指标和日志的采集标准。用它的好处是，Agent的调用链路可以跟传统微服务的追踪数据无缝关联。比如一个用户请求从前端到API网关，再到Agent编排器，最后到LLM推理端点，整条链路用一个trace ID就能串起来。而且追踪数据可以同时推送到Foundry Portal和Azure Monitor，IT团队在自己熟悉的监控平台上就能看到AI相关的遥测数据。这样AI系统就不会变成可观测性的黑盒了。那成本优化方面呢？多Agent架构token消耗肯定不小。他们提了两个关键策略。一个是模型替换，比如从GPT-4.1换到GPT-4 Mini来降成本，但每次换完必须跑回归评估确认质量没掉。另一个是通过追踪分析各环节耗时来找瓶颈，比如知识检索太慢了，可以考虑加缓存或者做数据预处理。好，接下来我想聊聊安全这块。Red Teaming这个概念大家可能听过，但在Agent场景下具体是怎么做的？核心思路其实很直觉——用一个攻击Agent来主动探测你的目标Agent的漏洞。开发者可以定义风险分类，比如数据泄露、未授权操作，然后选择攻击策略，系统自动生成攻击用例并评估防护效果。这里面有个特别值得关注的攻击手法叫Crescendo攻击，是微软研究团队2024年发表的。 Crescendo？这个名字听着就像渐强的意思。对，就是渐进式的。跟传统的单轮提示注入不同，它利用LLM的上下文学习能力，通过一系列看似无害的对话逐步建立语境，最终引导模型突破安全边界。比如先问'历史上有哪些著名的化学发现'，然后一步步把话题引向危险化学品的合成方法。每一轮单独看都没问题，传统的输入过滤器根本检测不到。在Agent场景下更危险，因为Agent有工具调用能力，攻击者可能通过渐进式对话最终诱导Agent执行未授权的API调用。所以防御得在对话级别而不是单轮级别来做安全评估。这确实是Agent特有的威胁面。嗯，还有一类叫功能滥用攻击，就是试图让Agent执行它不该执行的操作，比如窃取密码、泄露数据。在多工具Agent里尤其危险。好，最后我们聊聊我觉得最有意思的部分——Observe技能。用AI来评估和优化AI，这个听起来有点套娃的感觉。哈哈，确实有点套娃，但这个方向真的很有前景。你只需要给它一个基础Agent，Observe技能会自动分析你的代码，发现你缺评估数据集，就自动帮你生成测试数据，选合适的评估器跑基线评估，然后返回报告告诉你哪里有问题。更厉害的是，它会自动运行Prompt Optimizer来改进提示词，然后重新评估，迭代好几轮，记录每轮的改进和回退。这个Prompt Optimizer具体是怎么工作的？它的思路借鉴了机器学习里的超参数调优——把提示词当作可调参数，评估指标当作目标函数，通过迭代搜索找最优提示词。具体来说，它会分析评估失败的原因，比如基础性不足或者工具调用错误，然后针对性地调整系统提示词里的指令、约束条件和示例。但这里有个很现实的问题——优化过程中会出现翘翘板效应，改善了一个指标可能恶化了另一个。所以人还是得在回路里做最终决策。对，Human-in-the-Loop至关重要。演示里系统迭代了好几轮，得分在5到8之间波动，最后是开发者自己判断选了得分为5的版本作为最优解。AI帮你跑完所有实验，但最终拍板的还是人。整体看下来，Foundry这套方案的设计理念还是很清晰的——不管你在开发的哪个阶段，都有对应的工具来补上可观测性的缺口。从Portal快速验证到SDK精细控制，再到AI Skills自动化优化，形成闭环。而且它还提供了MCP Server，可以通过GitHub Copilot直接调用这些能力，不用在不同工具之间来回切换。嗯，虽然Foundry Skills目前还非常早期，发布才两周，但它指出的方向——用AI来管理AI的质量——我觉得这是Agent工程化绕不开的趋势。毕竟Agent的非确定性不会消失，我们能做的就是建立更好的观测和管理体系，把这种不确定性控制在可接受的范围内。说得好。其实总结下来就三个缺口需要弥合：行为差距靠追踪和评估来发现，响应速度靠关联分析来缩短，安全防线靠主动攻击测试来加固。把可观测性从事后补救变成开发流程的内建能力，这才是正道。好，今天就聊到这儿，这个话题后续肯定还有很多可以展开的。

Agent可观测性完整方案：追踪、评估与Red Teaming实战指南

更多播客

AI热点风向标·06月07日午间版

AI热点风向标·06月07日早间版

每日AI新鲜事·06月07日早间播报