伯克利CS294课程：智能体AI安全攻防实战全解析

文章正文

加州大学伯克利分校2025年秋季学期开设的CS294-196《Agentic AI》课程中，一场关于智能体AI安全与防御的讲座引发了广泛关注。讲座系统性地剖析了智能体AI系统面临的攻击面、风险评估方法和防御策略，为这一快速发展的领域提供了重要的安全框架。

智能体AI安全与安保：为什么现在必须重视

智能体AI（Agentic AI） 是指能够自主感知环境、制定计划并执行多步骤任务的AI系统，区别于传统的单轮问答式大语言模型。其核心架构通常包含感知模块、规划模块（如ReAct、Chain-of-Thought推理链）、记忆系统和工具调用能力。2023年以来，随着OpenAI Function Calling、Anthropic Tool Use等接口的开放，以及LangChain、AutoGPT等框架的涌现，智能体AI从实验室走向了生产环境。2025年，OpenAI推出Operator、Anthropic推出Claude Computer Use，标志着智能体AI正式进入"能操作真实计算机"的新阶段，这也使得安全问题从学术讨论变成了迫切的工程现实。

2025年被称为"智能体之年"（Year of Agents），智能体AI正在经历爆发式增长。然而，随着AI控制越来越多的系统，攻击者的动机也在同步增强。讲座引用了一份由全球30个国家约百位顶尖AI学者联合发布的《国际AI安全报告》，指出AI风险的广谱性。

课程概览

讲座首先厘清了两个关键概念：AI安全（Safety） 关注的是防止系统对外部世界造成伤害；AI安保（Security） 则关注保护系统本身免受恶意外部行为者的侵害。两者并非独立存在——安全机制本身也需要对恶意攻击保持韧性。

历史反复证明，攻击者总是紧跟新技术发展的脚步，有时甚至走在前面。随着AI能力的持续提升，被滥用的后果也将越来越严重。在对抗性环境中审视智能体AI的安全性，已经不是可选项，而是必选项。

智能体AI系统的架构与攻击面分析

混合系统的本质特征

与传统软件系统不同，智能体AI系统本质上是一种混合（Hybrid）或复合系统。传统系统主要由程序员编写的符号化组件构成，而智能体AI系统除了传统软件代码外，还包含大语言模型等神经组件，能够执行复杂的推理和规划功能。

一个典型的智能体系统工作流程包括：主机部署模型和系统→用户发送请求→系统处理请求并调用模型→模型通过输出与系统其余部分交互→系统与外部世界交互（读取信息、执行操作）→系统向用户返回响应。每一个环节都可能成为攻击的切入点。

灵活性越高，攻击面越大

讲座提出了一个重要的分类框架，沿多个维度描述智能体的设计空间：工作流（从静态到完全动态自主）、输入空间、动作空间（从无动作到读写执行）、工具集（从无工具到动态发现工具）、记忆（从无记忆到持久记忆）、自主级别（从人在回路到完全自动化）等。

智能体设计空间与攻击面

一个核心洞察是：沿每个维度，智能体的灵活性越高，攻击面也越大。安全与功能之间存在根本性的张力，需要在系统设计阶段就予以充分考虑。

安全目标的扩展：超越传统CIA三元组

CIA三元组（Confidentiality机密性、Integrity完整性、Availability可用性）是信息安全领域自1970年代沿用至今的经典框架，最早由美国国防部在可信计算机系统评估标准（TCSEC，俗称"橙皮书"）中系统化。机密性确保信息仅被授权方访问，完整性确保数据不被未授权篡改，可用性确保系统在需要时可正常使用。

相比传统系统，智能体AI系统在经典的CIA三元组基础上，引入了额外的保护目标：API密钥、系统提示词（System Prompt，作为智能产品的核心知识产权）、用户交互历史、专有模型参数等都成为需要保护的敏感资产。此外，智能体的"目标对齐性