大模型训练全流程解析：预训练、SFT微调与偏好对齐通俗详解

大模型是怎么来的？三步训练流程详解

我们日常使用的ChatGPT、DeepSeek、Kimi、千问等大模型，看似神通广大，但它们的诞生都要经历三个核心阶段。本文基于B站一位AI讲师的Qwen3部署与微调实战课程，用通俗易懂的方式为大家梳理大模型训练的完整知识体系。

大模型训练流程

第一步：预训练（Pre-training）—— 盖毛坯房

预训练是大模型诞生的第一步，也是最耗资源的阶段。大厂会从互联网上爬取海量文本数据，经过清洗、去重、过滤违规内容后，用这些数据训练模型。

预训练的核心目标是让模型具备**预测下一个词（Predict Next Token）**的能力。当你输入"天安"，模型能预测出下一个字最可能是"门"；接着预测"在"、"北"、"京"……这就是生成式大模型（Generative Model）能一个词一个词往外"蹦"的底层原理。

从技术实现角度来看，Next Token Prediction是自回归语言模型的核心训练目标。模型基于Transformer架构中的因果注意力机制（Causal Attention），只能看到当前位置之前的所有token，然后通过softmax层输出词表中每个token的概率分布。训练时使用交叉熵损失函数（Cross-Entropy Loss）来衡量预测分布与真实下一个token之间的差距。这种看似简单的训练目标，在海量数据的驱动下，能让模型涌现出推理、翻译、编程等复杂能力——规模定律（Scaling Law）表明，随着模型参数量、数据量和计算量的增加，模型性能会呈现可预测的幂律提升，这也是各大厂商不断扩大训练规模的理论依据。

这个阶段就像盖毛坯房——需要大量资源（数据、服务器、时间），但产出的只是一个具备基本功能的Base Model。

第二步：有监督微调（SFT）—— 硬装修

预训练完成后，模型虽然能生成文本，但还不具备良好的对话能力。SFT（Supervised Fine-Tuning）阶段会给模型准备大量的Question-Answer问答对，让它学习"面对什么问题，应该如何回答"。

SFT训练阶段

有监督微调的关键在于高质量指令数据的构造。典型的SFT数据格式包含system prompt（系统提示词）、user（用户输入）和assistant（模型回答）三个角色。训练时，模型只在assistant部分计算损失（即只学习如何回答，不学习如何提问），这种技术称为"损失掩码"（Loss Masking）。业界经验表明，数据质量远比数量重要——几千条精心标注的高质量数据，效果往往优于数万条低质量数据。此外，SFT阶段的学习率通常比预训练低1-2个数量级，以避免破坏预训练阶段学到的通用知识。

通过在有正确答案的情况下校正模型参数，模型就具备了Chat（聊天）的能力。这就像毛坯房的硬装修——装修完才能拎包入住。大厂开源的Instruct Model，就是经过这一步处理后的"精装房"。

第三步：偏好对齐（Preference Alignment）—— 软装饰

同一个问题可以有多种正确的回答方式，但哪种方式最符合用户期望？偏好对齐就是解决这个问题的。

偏好对齐阶段

根据具体算法的不同，数据准备方式也不同：

DPO算法：需要准备正例（喜欢的回答）和负例（不喜欢的回答）
PPO/GRPO算法：只需准备喜欢的回答，让模型自己探索为什么这种回答更好

深入理解这三种算法的区别：PPO（Proximal Policy Optimization）是OpenAI早期用于RLHF的经典算法，需要同时维护策略模型、参考模型、奖励模型和价值模型四个网络，训练复杂度高、显存占用大。DPO（Direct Preference Optimization）是2023年提出的简化方案，它巧妙地将奖励模型隐式地融入策略优化中，只需要策略模型和参考模型，大幅降低了训练门槛。GRPO（Group Relative Policy Optimization）则是DeepSeek提出的创新算法，它去掉了价值模型，通过组内相对排序来估计优势函数，在DeepSeek-R1的训练中展现了强大的推理能力提升效果。三种算法代表了偏好对齐技术从复杂到简洁的演进方向。

这就像软装——根据住户的个人偏好选择装饰画、绿植、家具摆放，完全按照个人喜好来定制。

预训练 vs 后训练：普通开发者该关注什么？

在上述三步中，第一步是预训练（Pre-train），后两步统称为后训练（Post-train）。

对于一般企业和开发者来说，我们不需要做预训练。预训练是大厂的事情，需要海量数据和算力。我们要做的是后训练——拿到开源模型后，通过SFT或偏好对齐来优化它，使其适应特定业务场景。

继续预训练（CPT）：一种特殊情况

如果你手头的数据不是问答对格式，而是大量的领域文章（比如农业、医疗、法律文档），这时就需要做Continuous Pre-Training（继续预训练）——按照预训练的方式，用领域文章继续训练已有模型。

继续预训练在垂直领域应用中非常常见。例如，将通用大模型适配到医疗领域时，需要用大量医学文献、临床指南、病历数据进行继续预训练，使模型掌握专业术语和领域知识。CPT的数据配比是关键工程决策：除了混入通用数据防止遗忘外，还需要控制不同来源数据的比例。学习率调度通常采用余弦退火（Cosine Annealing），起始学习率设为预训练末期学习率的同一量级。此外，CPT后通常还需要再做一轮SFT，才能恢复模型的对话能力，因为CPT可能会削弱模型在SFT阶段学到的指令遵循能力。

选择哪种训练方式，取决于两点：

你的需求是什么——提升对话能力选SFT，增强推理能力选偏好对齐
你的数据是什么格式——问答对用SFT，纯文章用CPT

训练方式选择

关于"遗忘"问题的解决方案

继续预训练可能导致模型"变傻"——为了记住新知识而遗忘旧知识。这在学术上被称为"灾难性遗忘"（Catastrophic Forgetting），是神经网络持续学习中的经典难题。解决方案很朴素：温故而知新。在训练时，除了新的领域语料，还混入10%-20%的原始预训练数据，让模型"复习"已有知识。

LoRA与训练范式：不是一个层面的概念

很多初学者容易混淆LoRA和SFT的关系。这里需要特别强调：

SFT、CPT、Preference Alignment 是「学习范式」——即训练的思路和方式
LoRA 是「具体实现算法」——即如何高效地执行这些训练

LoRA（Low-Rank Adaptation）的核心思想来源于一个重要发现：大模型在微调时，参数的变化量具有低秩特性。具体来说，对于一个d×d的权重矩阵W，LoRA不直接更新W，而是将更新量分解为两个小矩阵的乘积：ΔW = A×B，其中A是d×r矩阵，B是r×d矩阵，r远小于d（通常r=8、16、64）。这样可训练参数量从d²降低到2dr，大幅减少显存占用。推理时，ΔW可以合并回原始权重，不增加任何推理延迟。LoRA的变体如QLoRA（结合4-bit量化）进一步将显存需求压缩，使得消费级显卡（如单张24GB的RTX 4090）也能微调数十亿参数的模型。

不管你选择哪种后训练方式，都可以选择是否使用LoRA。它们是不同维度的概念，一个是"做什么"，一个是"怎么做"。

模型瘦身三板斧：蒸馏、量化、剪枝

训练完成后要部署模型，但大模型往往占用大量显存。减小模型体积有三种主流思路：

方法	比喻	原理
蒸馏	把大面包的豆沙馅放进小蛋糕	用大模型（教师）指导小模型（学生）学习
量化	暴力把面包捏小	直接压缩模型参数精度
剪枝	修剪树的多余枝杈	去除神经网络中不重要的连接

深入了解这三种技术：知识蒸馏（Knowledge Distillation）让小模型不仅学习硬标签（正确答案），还学习大模型输出的软标签（概率分布），因为软标签包含了类别间的相似性信息，能传递更丰富的"暗知识"。量化（Quantization）将模型参数从FP32/FP16精度压缩到INT8、INT4甚至更低位数，常见方案包括GPTQ（逐层量化，适合GPU推理）、AWQ（激活感知量化，保护重要权重）和GGUF（llama.cpp生态的量化格式，支持CPU推理）。剪枝（Pruning）分为非结构化剪枝（去除单个权重，稀疏化）和结构化剪枝（去除整个注意力头或网络层），后者对硬件更友好，能获得实际的推理加速。在实际部署中，这三种方法经常组合使用，例如先蒸馏得到小模型，再对小模型进行量化。

三种方法目的相同——节省部署时的显存资源，但实现思路完全不同。

大模型岗位的技能要求

对于「大模型应用算法工程师」这一岗位：

应用能力占70%-80%：基于大模型做应用开发
算法能力占20%-30%：会微调、懂数据准备、理解背后原理
学历要求：至少本科，专业不限
核心技能：Python为主，需要掌握微调实操、参数调优、问题排查

不需要你设计一个全新的模型架构，但需要你理解原理——知道出问题时从哪个角度优化，知道每个参数设置背后的含义。强化学习（RL）相关知识也是必备的，因为偏好对齐中的PPO、GRPO等算法都基于强化学习。强化学习的核心思想是让智能体（Agent）通过与环境交互获得奖励信号来优化策略，在大模型训练中，模型就是智能体，生成的回答就是动作，人类偏好评分就是奖励信号。理解这一框架，对于掌握偏好对齐的各种算法至关重要。

核心要点

大模型诞生经历预训练、有监督微调（SFT）、偏好对齐三个阶段，分别对应盖毛坯房、硬装修和软装饰
普通开发者只需关注后训练（Post-train），包括SFT、CPT和偏好对齐，选择哪种取决于数据格式和业务需求
LoRA是具体的训练算法（通过低秩分解减少可训练参数），SFT/CPT是学习范式，两者不在同一层面，不应混淆
模型瘦身有蒸馏、量化、剪枝三种方式，目的都是减少部署时的显存占用，实际中常组合使用
大模型应用算法工程师岗位以应用为主（70-80%），算法理解为辅，需掌握Python和微调实操能力