共 3 篇相关文章

深入分析为什么监督微调(SFT)无法解决编码Agent的JSON格式错误问题,以及GRPO(群组相对策略优化)如何通过二元奖励信号和推理权重同步机制,直接针对输出正确性训练,实现从"几乎正确"到"完全正确"的跨越。
科技前沿Liquid AI发布LFM2.5-8B-A1B模型,采用MoE架构,8B总参数仅激活1.5B,在工具调用场景中媲美6B级模型表现。支持128K上下文、本地部署、多语言,SGLang即时支持。
教程攻略Shopify公开生产级AI Agent冷启动方案:零真实对话数据下,从已有业务流程倒推训练样本,微调Qwen-32B实现速度提升2.2倍、成本降低60%。详解三步数据构造法、Tool Call链路设计及企业AI落地启发。