播客频道 | Shopify Agent冷启动实战：零对话数据训练生产级AI的三步法

今天想聊一个特别实际的问题——你要做一个AI Agent，但是手头一条真实用户数据都没有，怎么办？这个问题听起来像个死循环对吧，没数据训不了模型，模型没上线就没数据。但Shopify最近分享了他们的做法，我觉得思路特别漂亮，值得好好聊聊。对，这个冷启动问题其实困扰了很多企业AI团队。先说一下背景吧，Shopify有一个产品叫Flow，本质上就是电商后台的自动化工具。商家可以用它设规则，比如高风险订单自动通知团队、库存低了自动发提醒、客户做了某个动作就自动打标签发邮件。就是一套触发器加条件加动作的自动化流程。嗯，有点像Zapier那种，但是深度集成在Shopify自己的生态里。没错，而且它能直接操作订单、库存、客户这些核心业务对象，不只是表面的数据搬运。现在Shopify想做的事情是，让他们的AI助手Sidekick——内部代号叫Cyclone——直接帮商家生成这些Flow。商家说一句话，比如'帮我在库存低于10件的时候发个通知'，AI就要输出一条完整的、能在后台跑起来的自动化流程。这个难度可不小啊。这不是简单的问答，模型得知道先搜什么工具、选什么触发器、加什么条件、配什么动作，最后还得组装成系统能执行的格式。任何一步出错，轻则流程跑不起来，重则触发错误的业务规则，那可是真金白银的损失。对，这就是Tool Call的复杂性。普通的函数调用可能就一步，但这里是一条多步骤的调用链路，参数错了、顺序乱了都不行。所以Shopify一开始就决定不能只靠调闭源大模型的API，得自己微调。他们原文说得很直白——如果你基于封闭模型构建产品，任何有API密钥的人都能获得类似能力。真正的壁垒在于专有数据、训练方案和迭代速度。这个判断我觉得挺有魄力的。毕竟直接调GPT-4多省事啊，但确实，模型行为不可控、数据隐私、成本线性增长这些问题都是实打实的。那他们选了什么基座模型？ Qwen-32B，阿里通义千问开源的，320亿参数，在代码生成和工具调用上表现不错，而且Apache 2.0许可证，商业使用没问题。最终微调完的结果也挺亮眼的——速度提升2.2倍，成本降低60%，性能还超过了闭源大模型。好，效果先放这儿，我更想聊的是他们怎么解决冷启动的。能力还没上线，没有任何真实用户对话，训练数据从哪来？这就是最妙的地方了。他们的思路是——不去猜用户会怎么说，而是先看用户已经做成了什么。你想，虽然AI助手还没上线，但商家早就手动创建了大量的Flow啊，有些还在天天跑。这些Flow不是对话数据，但它们是用户意图的结果。哦我懂了，就像你没听见顾客点菜，但你看到桌上的菜了。从菜可以倒推他大概想吃什么，厨师是怎么做的。哈哈对，这个比喻很到位。具体来说分三步。第一步，筛选可靠的Flow样本。不是什么Flow都要，得是最近7天运行过的活跃流程，而且来自拥有多个合格Flow的商家，排除那些随手试一下就丢了的低质量样本。同类描述还只保留一个，保证多样性。嗯，先把ground truth的质量把住。然后呢？第二步，用更强的大模型反向生成用户请求。拿到一个验证过的Flow，让强模型来推测——商家可能会说什么话，才会想要这个Flow。这其实是一种反向工程，学术上叫问题生成。但关键是它锚定了真实业务产物，不是凭空编的。这一步我觉得特别聪明。传统的合成数据很容易飘，但这里有真实的业务结果兜底，生成的问题再怎么样也不会离谱到哪去。对。第三步是最关键的——构造完整的工具调用轨迹。光有输入和输出不够，还得补出中间路径：先搜了什么工具、看了哪些候选、取了什么配置、怎么加的条件和动作、最后怎么组装成可执行的Flow。这个中间过程才是模型真正需要学的东西。所以他们构造的不是简单的问答对，而是一条完整的链路——从业务结果到用户问法，到工具路径，到最终回答，再到可执行的工作流。没错。而且他们还专门建了一个300个手工样例的基准测试集，评估三个维度：语义正确性——生成的流程是不是真的做了用户想做的事；语法正确性——有没有格式错误导致执行失败；还有延迟——用户等多久能拿到结果。这三个维度其实代表了企业级AI评估的核心逻辑：模型对不对、系统跑不跑得起来、用户等不等得起。 300个手工样例听起来不多，但每个都要领域专家手动编写验证，覆盖各种边界情况，工作量其实不小。是的。而且Shopify也很坦诚地说了，这套方法只是第一步。合成数据终究有分布偏差的问题，倒推出来的用户请求不可能完全代表真实用户上线后的各种说法——模糊的、错误的、奇奇怪怪的表达都会有。所以冷启动之后，关键是尽快建立真实数据的收集和反馈闭环。这个我觉得特别值得强调。很多团队容易陷入两个极端，要么死等数据不敢动手，要么觉得合成数据万事大吉。Shopify的态度是先用合成数据把系统跑起来，然后持续用线上数据迭代。对，这才是务实的工程思维。而且这个思路的适用范围远不止电商。你想想，企业里到处都是这种'没有对话数据但有业务结果'的场景——审批流里有决策痕迹、配置表里有规则逻辑、历史工单里有处理路径。这些都可以用同样的方法挖出来、翻译成训练样本。嗯，总结一下的话，Shopify这套方法的核心就是一句话——从结果倒推意图，从意图补出路径。很多企业AI的训练数据不是收集来的，是从业务系统里挖出来的。如果你也在做企业级Agent，手头没有用户数据，不妨先看看你的业务系统里，有没有用户已经留下的'答案'。说得好。先认出它是业务痕迹，再把它翻译成训练样本。这可能是真实数据积累起来之前，最靠谱的冷启动策略了。

Shopify Agent冷启动实战：零对话数据训练生产级AI的三步法

更多播客

AI热点风向标·06月07日午间版

AI热点风向标·06月07日早间版

每日AI新鲜事·06月07日早间播报