#JSON格式错误

共 3 篇相关文章

深入分析为什么监督微调(SFT)无法解决编码Agent的JSON格式错误问题，以及GRPO(群组相对策略优化)如何通过二元奖励信号和推理权重同步机制，直接针对输出正确性训练，实现从"几乎正确"到"完全正确"的跨越。

Liquid AI发布LFM2.5-8B-A1B模型，采用MoE架构，8B总参数仅激活1.5B，在工具调用场景中媲美6B级模型表现。支持128K上下文、本地部署、多语言，SGLang即时支持。

Shopify公开生产级AI Agent冷启动方案：零真实对话数据下，从已有业务流程倒推训练样本，微调Qwen-32B实现速度提升2.2倍、成本降低60%。详解三步数据构造法、Tool Call链路设计及企业AI落地启发。