SFT无法修复JSON错误的根因：GRPO正确性训练如何突破编码Agent瓶颈

引言："几乎正确"的致命陷阱

在AI编码Agent的世界里，有一个看似矛盾却极其关键的问题：当模型"几乎"没有bug时，系统反而会崩溃。正如一位开发者精辟总结的——"几乎有效的JSON和有效的JSON完全不是一回事。"

Twitter讨论截图

这个观点来自对@akshay_pachaar研究的讨论，揭示了一个深层次的技术问题：为什么监督微调（SFT）无法从根本上解决编码Agent的JSON格式错误，而群组相对策略优化（GRPO）却能通过直接针对正确性进行训练来突破瓶颈。

编码Agent的"最后一英里"问题：为什么SFT修不好JSON错误

"几乎正确"比"明显错误"更危险

在软件工程中，JSON解析是一个典型的二元判断场景——要么完全有效，要么完全无效。JSON（JavaScript Object Notation）作为当今互联网最广泛使用的数据交换格式，其解析遵循严格的ECMA-404标准。与自然语言不同，JSON解析器不具备任何"容错"能力——一个缺少闭合括号的JSON字符串，一个多余的逗号，一个未转义的引号，无论其余99%的内容多么完美，都会导致解析器直接报错。

这种特性在编码Agent的上下文中尤为关键。现代Agent架构（如ReAct、Tool-Use模式）普遍依赖JSON格式来传递工具调用指令、解析API响应和维护中间状态。当Agent输出的JSON格式出错时，不仅当前步骤失败，整个任务链路都会中断，且错误往往难以自动恢复。

对于编码Agent而言，模型的输出准确率从95%提升到99%，并不意味着系统可靠性提升了4个百分点。在多步骤的Agent工作流中，每一步的微小错误都会级联放大。如果一个Agent需要执行10步操作，每步99%的准确率意味着整体成功率仅为约90%（0.99^10 ≈ 0.904）——这在生产环境中是不可接受的。更极端地，如果一个复杂任务需要50步操作，即使每步99.5%的准确率，整体成功率也仅为约78%。

SFT的根本性缺陷

监督微调（Supervised Fine-Tuning）是大语言模型训练流程中的关键阶段，通常在大规模预训练之后进行。其核心机制是通过人工标注的高质量（指令, 回答）数据对，让模型学习模仿训练数据中的模式。它通过最小化预测输出与标注答案之间的交叉熵损失来优化模型。这种方法在InstructGPT、Alpaca等里程碑项目中被证明能显著提升模型的指令遵循能力，但在处理JSON格式正确性时存在根本性缺陷：

SFT优化的是token级别的概率分布，而不是输出的整体结构正确性。交叉熵损失的本质是衡量每个位置上预测token概率分布与目标token之间的差异，它对序列的全局结构约束是"隐式"的——模型需要从大量示例中自行归纳出括号匹配、嵌套层级等结构规则，而非被显式告知这些约束
模型可能学会了生成"看起来像"有效JSON的文本，但无法保证括号匹配、逗号位置等结构完整性。这意味着即使在海量正确JSON样本上微调，模型仍可能在低概率情况下生成结构不完整的输出
对于格式约束这类硬性要求，"接近正确"的梯度信号与"完全正确"几乎无法区分。在交叉熵损失的视角下，一个缺少最后一个闭合花括号的输出与完全正确的输出之间的损失差异微乎其微，因为它们在前面所有token上的预测都是一致的

简单来说，SFT告诉模型"好的输出长什么样"，但没有告诉它"不完整的输出会导致什么后果"。这就是SFT无法从根本上修复JSON错误的原因。

GRPO如何直接针对正确性训练

GRPO的核心原理

GRPO（Group Relative Policy Optimization，群组相对策略优化）是一种强化学习方法，由DeepSeek团队在其DeepSeek-Math和DeepSeek-R1系列工作中提出并推广。它是对传统RLHF（基于人类反馈的强化学习）流程的重要简化。在经典的PPO（Proximal Policy Optimization）方法中，需要训练一个独立的价值函数（Critic模型）来估计状态价值，这不仅增加了计算开销，还引入了价值估计偏差的问题。GRPO的创新在于完全移除了Critic模型，转而通过对同一提示生成一组（Group）候选输出，然后用组内输出的奖励分数进行相对排序和归一化，以此替代价值基线。

GRPO的核心思想是：不再依赖模仿学习，而是直接用输出的正确性作为奖励信号来优化模型策略。与传统RL方法和SFT相比，GRPO在解决JSON格式错误方面具有三个关键优势：

二元奖励信号：JSON要么有效要么无效，这种清晰的奖励函数天然适合强化学习训练。不需要复杂的奖励模型设计，一个简单的JSON解析器就能提供完美的奖励信号——解析成功得1分，失败得0分
组内相对比较：通过比较同一组内不同输出的质量，模型能精确学会区分"几乎正确"和"完全正确"。例如，当一组输出中有些JSON有效、有些无效时，模型能从对比中学到导致失败的具体模式
端到端优化：直接优化最终目标（输出正确性），而非中间代理目标（token概率）。这种设计大幅降低了训练的内存和计算需求，同时保持了策略优化的有效性

推理与权重更新的同步：规模化的关键机制

GRPO之所以能在规模化场景中发挥威力，关键在于推理过程与每次权重更新保持同步。

具体而言，在训练过程中，模型每次生成输出（推理）后获得奖励反馈，然后立即更新权重。下一次生成时，模型已经基于最新的权重进行推理。这种紧密的反馈循环确保了：

模型不会基于过时的策略生成训练样本
每一步改进都能立即反映在后续的输出质量上
避免了离线RL中常见的分布偏移问题

分布偏移（Distribution Shift）是强化学习中的经典挑战，指的是用于训练的数据分布与模型实际执行时的数据分布之间存在差异。在离线强化学习中，训练数据由旧版本策略生成，但模型权重在训练过程中不断更新，导致当前策略与生成训练数据的策略之间产生偏差。这种偏差会导致模型在训练数据上表现良好，但在实际推理时性能退化。GRPO采用的在线（on-policy）训练范式——即每次权重更新后立即用最新模型重新生成样本——从根本上避免了这一问题，确保训练信号始终反映模型当前的真实能力水平。

这种机制使得GRPO能够持续逼近100%的JSON格式正确率，而不是停留在SFT所能达到的"高概率正确"水平。

GRPO对AI编程工具开发的实际启示

从"能用"到"可靠"的技术路径

当前主流的AI编码助手面临的核心挑战不是"能不能生成代码"，而是"生成的代码能不能直接运行"。AI编码工具正经历从"副驾驶"到"自动驾驶"的范式转变。早期的GitHub Copilot主要提供行级或函数级的代码补全建议，开发者仍然是决策主体。而新一代的编码Agent——如Devin、OpenAI Codex Agent、Claude Code等——则试图自主完成从需求理解、代码编写、测试执行到bug修复的完整开发流程。这种自主性的提升对输出可靠性提出了指数级更高的要求：当人类不再逐行审查每个输出时，任何格式错误、工具调用失败或状态管理异常都可能导致Agent陷入无限循环或产生错误结果。

GRPO的方法论为这一问题提供了清晰的技术路径：

结构化输出场景：对于JSON、API调用格式、配置文件等有严格格式要求的场景，基于GRPO的RL训练可以显著提升可靠性。这些场景的共同特点是存在明确的、可自动验证的正确性标准，天然适合构建二元奖励函数
工具调用正确性：Agent需要生成精确的函数调用参数，这同样是一个"全有或全无"的正确性问题，适合用二元奖励信号优化。在Function Calling场景中，参数类型错误、必填字段缺失、枚举值越界等问题都会导致调用失败
多步推理链路：在复杂的编码任务中，每一步的可靠性直接决定了整体任务的成功率，GRPO的端到端优化在此具有天然优势。结合前文的概率分析，将单步可靠性从99%提升到99.9%，对于50步任务意味着整体成功率从78%跃升至95%

行业发展方向

这一研究方向印证了AI行业的一个重要趋势：从追求模型的通用能力，转向优化特定场景下的绝对可靠性。对于编码Agent而言，一个在结构化输出上100%可靠的模型，远比一个"几乎总是正确"的模型更有实用价值。这也解释了为什么越来越多的团队开始在SFT之后引入RL阶段——不是为了让模型"更聪明"，而是为了让模型在关键约束上"绝对可靠"。在数学推理和代码生成等可验证任务中，GRPO已被证明能持续提升模型在严格正确性指标上的表现，这一方法论正在从研究走向工程实践。

总结

"几乎无bug"的编码Agent在实际应用中可能比"明显有bug"的更加危险，因为它给人以虚假的安全感。SFT受限于token级别的优化机制，无法从根本上解决JSON格式正确性这类二元判断问题——它优化的是每个位置上的概率分布，而非输出的全局结构有效性。GRPO通过将正确性直接作为优化目标，配合推理与权重更新的实时同步机制（避免分布偏移），为解决编码Agent的"最后一英里"问题提供了有效的技术方案。

随着AI编码工具从辅助建议向自主执行演进——从Copilot式的代码补全到Devin式的自主开发——这种基于强化学习的正确性训练方法将成为构建可靠编码Agent的核心技术路径。正确性不再是一个"尽力而为"的软目标，而是系统能否投入生产的硬性门槛。