Nature Skills：用Claude Code自动化学术论文全流程详解

项目概览：给AI装上学术操作手册

上海交通大学博士开源了一个名为 Nature Skills 的项目，将学术论文从写作到发表的完整流程，通过 Claude Code 的 Skills 机制实现了全面自动化。项目包含 7 个 Skill、15 种输出文件，采用 MIT 协议完全开源。

Nature Skills项目介绍

Skill 的本质：从「靠运气」到「靠规则」

什么是 Skill？简单来说，就是给 Claude 塞了一本专业操作手册。

Claude Code 是 Anthropic 推出的命令行开发工具，允许开发者通过自然语言与 Claude 交互完成编程任务。其 Skills 机制是一种结构化的提示工程方法——开发者可以在项目目录中放置 Markdown 格式的规则文件，Claude 在执行任务时会自动加载这些文件作为行为约束。这本质上是将 System Prompt 工程化、模块化，使得 AI 的行为从一次性的对话调教变成了可版本控制、可复用、可共享的标准化配置。Skills 文件通常包含 YAML 前置元数据（用于触发条件判断）和 Markdown 正文（用于定义工作流和输出规范）。

没有 Skill 时，让 Claude 润色论文，它会按自己的理解来——风格不符合期刊要求，句子太长，用词不够学术，而且每次结果都不一样。有了 Skill 之后，Claude 会先判断论文类型，按 Nature 期刊规范来润色：每句话不超过 30 个词，按证据强度选择用词，每次都遵循同一套标准，结果稳定可复现。

核心区别：没有 Skill，Claude 靠运气；有了 Skill，Claude 靠规则。

7 个 Skill 功能逐一拆解

1. Nature Polishing（学术写作润色）

不只是改语言，还会先判断论文类型，根据类型用不同的叙事逻辑来写。更关键的是，它会帮你发现逻辑漏洞——直接标出来，而不是帮你润色过去。

2. Nature Citation（文献自动引用）

7 个 Skill 中技术含量最高的一个。它调用 Crossref API 和 PubMed，把论文分段，每段自动匹配 CNS 范围内的文献，还会给每条文献打支撑等级。

Crossref 是全球最大的学术文献元数据注册机构，管理着超过 1.5 亿条 DOI（数字对象标识符）记录。其开放 API 允许开发者通过关键词、作者、期刊等条件检索文献的标题、摘要、引用关系等结构化信息，无需付费即可调用。PubMed 则是美国国立医学图书馆维护的生物医学文献数据库，收录超过 3600 万条文献记录，其 E-utilities API 同样提供免费的程序化检索接口。Nature Citation Skill 通过组合调用这两个 API，实现了从论文文本到匹配文献的自动化流程，避免了传统手动检索的低效率问题。

这里的 CNS 是学术界对 Cell、Nature、Science 三大顶级综合性期刊的简称，广义上也包括其子刊系列（如 Nature Methods、Nature Communications、Cell Reports 等）。这些期刊代表了各学科最高水平的研究成果，其引用在学术评价体系中具有极高权重。将文献匹配范围限定在 CNS 级别，既保证了引用质量，也符合高水平论文投稿时优先引用顶刊文献的惯例。

输出 5 种格式：ENW 可直接导入 Zotero，TSV 可用 Excel 筛选。ENW（EndNote Export Format）是一种通用的文献引用交换格式，几乎所有主流文献管理工具都支持导入。Zotero 是一款开源免费的文献管理软件，在学术界使用极为广泛，支持浏览器插件一键抓取文献、自动生成参考文献列表、与 Word/LaTeX 深度集成。TSV（Tab-Separated Values）格式则可以直接用 Excel 或 Google Sheets 打开，方便研究者对候选文献进行人工筛选和标注。多格式输出的设计体现了工程化思维——同一份数据适配不同下游工具链。

3. Nature Fig（科研绘图）

特别之处在于它的「图形契约机制」：画图之前必须先定义这张图要回答什么科学问题，防止先画图再凑结论的坏习惯。

4. Nature Reader（论文双语阅读）

把论文转成双语对照的 Markdown 文件，图放在引用它的正文旁边而非堆在文末。还有一套溯源 ID 系统（S001、S002），这对知识图谱构建特别有用。

5. Nature Paper2PPT（论文转中文PPT）

7 个科学问题驱动演讲逻辑，默认 12-16 页，中文内容、英文术语保留，直接用 PowerPoint 或 WPS 打开。

6. Nature Data（数据可用性声明）

帮你起草符合 Nature 政策的数据声明，接受中文输入，产出英文。有一条重要红线：明确规定不编造 DOI。

7. Nature Response（审稿人回复信）

将审稿意见转化为结构化逐点回复草稿。它是 7 个中唯一同时有示范文件和测试评分标准的 Skill，说明作者在认真做质量控制。

实战演示：5 步跑通一篇模拟论文

作者用一篇「深度学习蛋白质结构预测方法比较研究」的模拟草稿，按规范化建议顺序跑了 5 个步骤：

Step 1 润色： 除了语言规范化，还发现了论文的逻辑问题——Abstract 提到了 MSA 深度分析和混合策略，但 Results 里根本没有对应小节。它没有帮你掩盖问题，而是留了标注告诉你投稿前必须补上。

Step 2 文献引用： 产出 80 条候选文献，每条带支撑等级评分，同时输出 5 种格式。这是纯靠对话根本做不到的事。

Step 3 图表： SVG、PDF、PNG、Python 源码 4 种格式都有。源码保留的意义在于数据变了改一行重跑就行（不过生成的图存在文字重叠缺陷）。

Step 4 数据声明： 带中文核对清单，可直接粘贴进稿件。

Step 5 PPT： 13 张中文幻灯片带演讲备注，还有质检报告告诉你哪些地方需要注意。

这套产出的价值不是帮你写论文，而是产出了一套可以持续迭代的工程化文件。

9 条 Skill 写法规律：学完就能写自己的

通过拆解源码，总结出 9 条核心写法规律：

规律 1-3：结构层面

Description 字段决定触发时机：中英文关键词都写，还要写什么时候不用。不写清楚，该用的时候没用，等于白写。
主文件轻量，细节按需加载：核心规则放主文件，场景细节放子文件。全堆在一起会塞满 Claude 的上下文，反而变差。Claude 等大语言模型有固定的上下文窗口限制（Context Window），即单次对话能处理的最大 token 数量。当 Skill 文件过于庞大时，会占用大量上下文空间，留给用户输入和模型推理的空间就会减少，导致输出质量下降甚至信息丢失。因此「主文件轻量，细节按需加载」的设计原则本质上是在有限上下文资源下的信息密度优化——只在需要时才加载特定子文件，确保模型始终有足够的推理空间。这与软件工程中的懒加载（Lazy Loading）思想一脉相承。
工作流必须编号：第一步做什么、第二步做什么显式写出来。不写顺序，Claude 想到哪做到哪，结果不稳定。

规律 4-6：规范层面

写清楚默认行为：没有特殊指令时该怎么做必须明确规定，否则遇到边界情况就自由发挥。
规定输出格式模板：把输出当 API 接口来设计，字段固定、顺序固定。不规定则每次格式不同，没法直接用。
规则必须有来源：来自官方文档、论文、权威课程。没来源的规则靠感觉，质量没保障。

规律 7-9：工程层面

两种体量路线都可行：规则简单就一个文件搞定，规则复杂就主文件加多个子文件。Nature Paper2PPT 用了 495 行单文件，Nature Response 用了主文件加 9 个子文件，两种都跑得很好。
要有示例和测试用例：写几个好的输出长什么样的示范，再写几个测试用例验证效果。
中文用户适配专门章节：接受中文输入，精确处理术语转换，明确最终输出用什么语言。7 个 Skill 中有 4 个专门写了这个章节。

Skill 写作模板：最小必要结构

基于 9 条规律提炼的模板核心部分：

YAML 门控：必须有
Description：写触发条件
Default Stance：核心原则和禁止行为
Workflow：必须编号，规定做事顺序
Output Format：固定输出格式
Relative Files：路由表，什么情况加载哪个子文件
Source Hierarchy：规则来源

一句话总结：好的 Skill = 触发条件 + 有序工作流 + 固定输出格式 + 明确红线 + 有来源 + 能验证效果

改造方向：知识图谱自动化评测流水线

知识图谱实验常用流程（抽三元组、打 F1 分、生成问答对、RAG 检索、图谱检索等）完全可以按 Nature Skills 的写法规范各自封装成 Skill，形成完整的自动化评测流水线。

知识图谱（Knowledge Graph）是一种以图结构存储知识的技术，由节点（实体）和边（关系）组成。三元组（Triple）是知识图谱的最小单元，格式为（主语, 谓语, 宾语），例如（AlphaFold2, 预测, 蛋白质结构）。F1 分数是评估三元组抽取质量的标准指标，综合考虑精确率和召回率。RAG（Retrieval-Augmented Generation，检索增强生成）则是当前 AI 应用的主流架构，通过先检索相关知识再生成回答来减少大模型的幻觉问题。将这些环节封装为 Skill，可以实现从论文阅读到知识入库的端到端自动化。

与现有 Nature Skills 的天然结合点：

Nature Reader 的溯源 ID 系统（S001、S002）天然就是知识图谱节点 ID 的雏形，阅读论文时顺手就能抽三元组
Nature Citation 产出的引用关系直接就是图谱里的边
Nature Figure 可以按期刊规范把知识图谱可视化出来

这套思路不限于学术场景——任何有重复性专业任务的地方，都能用 Skill 机制实现标准化、可复现的自动化执行。

核心要点

Nature Skills 项目包含7个Skill，覆盖学术论文从润色、文献引用、绘图到审稿回复的全流程，MIT协议开源
Skill的核心价值是将AI从「靠运气」变为「靠规则」，通过预定义的专业操作手册实现稳定可复现的输出
源码拆解总结出9条Skill写法规律，核心公式为：触发条件+有序工作流+固定输出格式+明确红线+有来源+能验证效果
Nature Reader的溯源ID系统和Nature Citation的引用关系，天然适配知识图谱的节点和边构建
该方法论可推广到任何有重复性专业任务的场景，不限于学术写作