Claude Skills教程:从零构建AI Agent技能体系

系统讲解AI Agent Skill的概念、结构及Claude Code实战开发方法
本文从人类职业技能类比出发,解释了AI Agent Skill的概念——一种标准化的能力封装单元,由skill.md、references、scripts、assets四部分组成。文章阐明了Skill与普通提示词在复杂度、可复用性和按需加载机制上的本质区别,并通过两个实战案例(餐厅创意文案生成和文案到海报图片的完整工作流),演示了如何在Claude Code环境中从零编写和调用Skill。
什么是Agent Skill?从人类技能类比说起
随着Claude Code、Hermes Agent等AI Agent工具的爆火,Skill(技能)作为Agent体系中的核心模块,正在成为每个AI使用者绑定不开的能力项。不过很多人对Skill的概念仍然模糊——它到底是什么?跟提示词又有什么不同?
在理解Skill之前,有必要先厘清AI Agent的技术背景。AI Agent是一种能够自主感知环境、制定计划并执行多步骤任务的AI系统,与传统的单轮对话模型有本质区别。Agent的核心能力在于"工具调用"(Tool Use)和"规划推理"(Planning)——它可以将一个复杂目标拆解为若干子任务,依次调用不同工具完成,而不是简单地给出一个文本回复。Skill正是在这一架构下诞生的标准化能力封装单元,让Agent的工具调用能力变得可复用、可分发、可组合。
最直观的理解方式是拿人类职业技能做类比。程序员有编写代码、调试Bug的技能,医生有诊断治疗的技能,学生有完成作业的技能。Agent Skill就是AI版本的"职业技能"——每个Skill定义了Agent在特定场景下应该如何工作。
一个完整的Skill由四个部分组成,对应程序员开发项目时的四要素:
- skill.md(开发流程):核心文件,定义技能的元信息和执行指令,是唯一的必需文件
- references/(参考文档):补充性文档,避免skill.md过于臃肿
- scripts/(开发工具):可执行脚本,比如调用API生成图片的代码
- assets/(静态资源):图片、音频等参考素材

需要特别说明的是,只有skill.md是必需文件,其余三个文件夹根据实际需求决定是否添加。
Skill与提示词的本质区别
很多人第一次看到skill.md的内容会说:"这不就是一段复杂的提示词吗?"这个认知需要纠正。两者之间有几个关键差异:
复杂度与功能差异
提示词适合单步任务(翻译、摘要、问答),而Skill能处理复杂的多步骤工作流。Skill内部可以包含循环逻辑、条件判断、API调用等能力,这些是纯提示词难以实现的。
可复用性
提示词每次使用往往需要微调,而Skill是封装好的模块,用户只需触发即可,不用关心内部细节——就像使用一个APP,你不需要了解它的源代码。
按需加载机制与Token经济学
这是Agent Skill最精妙的设计之一,其背后涉及大模型的核心计量单位——Token。Token是大语言模型处理文本的基本单元,通常一个英文单词约等于1-2个Token,中文字符约1-2个Token。由于模型的上下文窗口(Context Window)有限,且API调用按Token计费,如何在有限预算内传递最有效的信息,是Agent系统设计的核心挑战。
当你向Agent发送消息时,它不会把所有Skill的完整内容都读一遍(那样太浪费Token),而是只读取每个Skill的元信息(name和description,通常不超过几十个Token)。只有当检测到用户需求匹配某个Skill时,才会加载该Skill的完整指令。这种"懒加载"(Lazy Loading)的工程思想直接决定了多个Skill共存并不会增加Token消耗。
打个比方:提示词像是问专家一个问题,专家凭记忆回答;Skill像是要求一个工作小组完成一个项目——查资料、写大纲、设计排版、配图表,你只需下达命令,不需要指挥每一步。
环境搭建:三步配置Claude Code开发环境
在编写Skill之前,需要安装三个工具:
第一步:安装VS Code编辑器
作为代码编辑器使用,安装过程是标准的傻瓜式操作。如果需要中文界面,在扩展商店搜索"Chinese"安装官方中文语言包即可。习惯使用Cursor的同学也完全可以替代。
第二步:安装Claude Code Agent
这是我们的核心Agent工具。安装完成后,它会以对话形式集成在VS Code右侧面板中。如果安装遇到问题,可以参考官方文档逐步排查。
第三步:配置CC Switch模型切换工具
这个工具用于切换Claude Code的模型供应商。你可以使用官方模型,也可以切换到DeepSeek、智谱等国产模型——价格更低,效果也不错。
配置CC Switch的关键步骤:点击右上角加号 → 选择供应商(如DeepSeek)→ 填入API Key → 选择模型(如DeepSeek V4 Pro)→ 点击启用。配置完成后,在VS Code终端中与Claude对话,确认模型信息无误即代表环境就绪。
实战一:编写最简单的Agent Skill
环境就绪后,我们从最简单的Skill开始。以一个餐厅创意文案生成Skill为例:
创建Skill目录结构
在项目根目录下创建 .claude/skills/evan-creative/ 文件夹,然后在其中新建 skill.md 文件(注意skill首字母需要大写为SKILL.md)。

skill.md的核心结构解析
skill.md由两部分组成:
元信息(用三个横杠---分隔):包含技能名称和描述,这是Agent按需加载时首先读取的部分。
指令部分:详细定义品牌核心元素(品牌名、风格、IP形象、主色调、slogan)、任务说明、输出格式(主题创意、视觉风格、画面构成、细节建议)等。描述越细致,生成内容越符合预期。
创建完成后,重启VS Code让Agent识别新Skill,然后输入斜杠/即可找到并调用该技能。
实战二:从文案到图片生成的完整工作流
纯文案创意对餐厅来说远远不够,我们需要直接生成可打印的海报图片。这就需要用到scripts和assets两个扩展能力。
添加图片生成脚本
在skills目录下创建scripts/文件夹,放入调用千问Image 2.0 Pro API的脚本文件。这个脚本支持文生图和图生图两种模式。
千问Image 2.0 Pro(Qwen-VL系列)是阿里云推出的多模态大模型,其底层基于扩散模型(Diffusion Model)技术:文生图模式通过对提示词的语义理解逐步去噪生成图像;图生图模式则在参考图的视觉特征约束下进行风格迁移或内容修改,特别适合需要保持品牌一致性的商业场景。将此类API封装进Skill的scripts目录,本质上是"AI能力组合"(AI Composition)思想的落地——用语言模型驱动图像模型,实现跨模态的自动化工作流。

添加品牌参考素材
创建assets/文件夹,放入品牌Logo等参考图片。通过图生图功能,可以确保生成的海报与品牌视觉风格保持一致。
修改skill.md增加图片生成流程
在指令部分增加图片生成流程:询问用户是否需要生成图片 → 将创意转换为生图提示词 → 调用脚本生成图片 → 保存到指定目录。
实测效果:输入"帮我生成一个周末啤酒免费的海报
相关推荐
教程攻略Cursor+Codex双IDE协同:开源项目二开实战方法论
基于实战经验总结的开源项目二次开发完整方法论,详解Cursor+Codex双IDE协同工作流,涵盖二开七环节、MVP验证、AI读源码技巧,帮助开发者三天跑通项目、两周完成业务集成。
教程攻略Cursor多Agent实战:50分钟搭建Next.js全栈博客
使用Cursor IDE多Agent协作模式,50分钟内从零搭建全栈博客。涵盖Next.js、Clerk认证、Supabase数据库集成,详解4个AI Agent分阶段开发流程与关键避坑经验。
教程攻略从零搭建AI软件工厂:Cursor工程师的多Agent协作实战经验
Cursor工程师Eric分享AI软件工厂构建实战:从自动化六层级、护栏设计、并行Agent管理到规模化扩展,详解如何用多Agent协作实现7×24小时高效软件开发。