Claude Skills教程：从零构建AI Agent技能体系

什么是Agent Skill？从人类技能类比说起

随着Claude Code、Hermes Agent等AI Agent工具的爆火，Skill（技能）作为Agent体系中的核心模块，正在成为每个AI使用者绑定不开的能力项。不过很多人对Skill的概念仍然模糊——它到底是什么？跟提示词又有什么不同？

在理解Skill之前，有必要先厘清AI Agent的技术背景。AI Agent是一种能够自主感知环境、制定计划并执行多步骤任务的AI系统，与传统的单轮对话模型有本质区别。Agent的核心能力在于"工具调用"（Tool Use）和"规划推理"（Planning）——它可以将一个复杂目标拆解为若干子任务，依次调用不同工具完成，而不是简单地给出一个文本回复。Skill正是在这一架构下诞生的标准化能力封装单元，让Agent的工具调用能力变得可复用、可分发、可组合。

最直观的理解方式是拿人类职业技能做类比。程序员有编写代码、调试Bug的技能，医生有诊断治疗的技能，学生有完成作业的技能。Agent Skill就是AI版本的"职业技能"——每个Skill定义了Agent在特定场景下应该如何工作。

一个完整的Skill由四个部分组成，对应程序员开发项目时的四要素：

skill.md（开发流程）：核心文件，定义技能的元信息和执行指令，是唯一的必需文件
references/（参考文档）：补充性文档，避免skill.md过于臃肿
scripts/（开发工具）：可执行脚本，比如调用API生成图片的代码
assets/（静态资源）：图片、音频等参考素材

Skill目录结构示意

需要特别说明的是，只有skill.md是必需文件，其余三个文件夹根据实际需求决定是否添加。

Skill与提示词的本质区别

很多人第一次看到skill.md的内容会说："这不就是一段复杂的提示词吗？"这个认知需要纠正。两者之间有几个关键差异：

复杂度与功能差异

提示词适合单步任务（翻译、摘要、问答），而Skill能处理复杂的多步骤工作流。Skill内部可以包含循环逻辑、条件判断、API调用等能力，这些是纯提示词难以实现的。

可复用性

提示词每次使用往往需要微调，而Skill是封装好的模块，用户只需触发即可，不用关心内部细节——就像使用一个APP，你不需要了解它的源代码。

按需加载机制与Token经济学

这是Agent Skill最精妙的设计之一，其背后涉及大模型的核心计量单位——Token。Token是大语言模型处理文本的基本单元，通常一个英文单词约等于1-2个Token，中文字符约1-2个Token。由于模型的上下文窗口（Context Window）有限，且API调用按Token计费，如何在有限预算内传递最有效的信息，是Agent系统设计的核心挑战。

当你向Agent发送消息时，它不会把所有Skill的完整内容都读一遍（那样太浪费Token），而是只读取每个Skill的元信息（name和description，通常不超过几十个Token）。只有当检测到用户需求匹配某个Skill时，才会加载该Skill的完整指令。这种"懒加载"（Lazy Loading）的工程思想直接决定了多个Skill共存并不会增加Token消耗。

打个比方：提示词像是问专家一个问题，专家凭记忆回答；Skill像是要求一个工作小组完成一个项目——查资料、写大纲、设计排版、配图表，你只需下达命令，不需要指挥每一步。

环境搭建：三步配置Claude Code开发环境

在编写Skill之前，需要安装三个工具：

第一步：安装VS Code编辑器

作为代码编辑器使用，安装过程是标准的傻瓜式操作。如果需要中文界面，在扩展商店搜索"Chinese"安装官方中文语言包即可。习惯使用Cursor的同学也完全可以替代。

第二步：安装Claude Code Agent

这是我们的核心Agent工具。安装完成后，它会以对话形式集成在VS Code右侧面板中。如果安装遇到问题，可以参考官方文档逐步排查。

第三步：配置CC Switch模型切换工具

这个工具用于切换Claude Code的模型供应商。你可以使用官方模型，也可以切换到DeepSeek、智谱等国产模型——价格更低，效果也不错。

配置CC Switch的关键步骤：点击右上角加号 → 选择供应商（如DeepSeek）→ 填入API Key → 选择模型（如DeepSeek V4 Pro）→ 点击启用。配置完成后，在VS Code终端中与Claude对话，确认模型信息无误即代表环境就绪。

实战一：编写最简单的Agent Skill

环境就绪后，我们从最简单的Skill开始。以一个餐厅创意文案生成Skill为例：

创建Skill目录结构

在项目根目录下创建 .claude/skills/evan-creative/ 文件夹，然后在其中新建 skill.md 文件（注意skill首字母需要大写为SKILL.md）。

通过斜杠命令调用Skill

skill.md的核心结构解析

skill.md由两部分组成：

元信息（用三个横杠---分隔）：包含技能名称和描述，这是Agent按需加载时首先读取的部分。

指令部分：详细定义品牌核心元素（品牌名、风格、IP形象、主色调、slogan）、任务说明、输出格式（主题创意、视觉风格、画面构成、细节建议）等。描述越细致，生成内容越符合预期。

创建完成后，重启VS Code让Agent识别新Skill，然后输入斜杠/即可找到并调用该技能。

实战二：从文案到图片生成的完整工作流

纯文案创意对餐厅来说远远不够，我们需要直接生成可打印的海报图片。这就需要用到scripts和assets两个扩展能力。

添加图片生成脚本

在skills目录下创建scripts/文件夹，放入调用千问Image 2.0 Pro API的脚本文件。这个脚本支持文生图和图生图两种模式。

千问Image 2.0 Pro（Qwen-VL系列）是阿里云推出的多模态大模型，其底层基于扩散模型（Diffusion Model）技术：文生图模式通过对提示词的语义理解逐步去噪生成图像；图生图模式则在参考图的视觉特征约束下进行风格迁移或内容修改，特别适合需要保持品牌一致性的商业场景。将此类API封装进Skill的scripts目录，本质上是"AI能力组合"（AI Composition）思想的落地——用语言模型驱动图像模型，实现跨模态的自动化工作流。

完整的Skill配置

添加品牌参考素材

创建assets/文件夹，放入品牌Logo等参考图片。通过图生图功能，可以确保生成的海报与品牌视觉风格保持一致。

修改skill.md增加图片生成流程

在指令部分增加图片生成流程：询问用户是否需要生成图片 → 将创意转换为生图提示词 → 调用脚本生成图片 → 保存到指定目录。

实测效果：输入"帮我生成一个周末啤酒免费的海报