今天想聊一个特别实际的问题——你要做一个AI Agent,但是手头一条真实用户数据都没有,怎么办?这个问题听起来像个死循环对吧,没数据训不了模型,模型没上线就没数据。但Shopify最近分享了他们的做法,我觉得思路特别漂亮,值得好好聊聊。
对,这个冷启动问题其实困扰了很多企业AI团队。先说一下背景吧,Shopify有一个产品叫Flow,本质上就是电商后台的自动化工具。商家可以用它设规则,比如高风险订单自动通知团队、库存低了自动发提醒、客户做了某个动作就自动打标签发邮件。就是一套触发器加条件加动作的自动化流程。
嗯,有点像Zapier那种,但是深度集成在Shopify自己的生态里。
没错,而且它能直接操作订单、库存、客户这些核心业务对象,不只是表面的数据搬运。现在Shopify想做的事情是,让他们的AI助手Sidekick——内部代号叫Cyclone——直接帮商家生成这些Flow。商家说一句话,比如'帮我在库存低于10件的时候发个通知',AI就要输出一条完整的、能在后台跑起来的自动化流程。
这个难度可不小啊。这不是简单的问答,模型得知道先搜什么工具、选什么触发器、加什么条件、配什么动作,最后还得组装成系统能执行的格式。任何一步出错,轻则流程跑不起来,重则触发错误的业务规则,那可是真金白银的损失。
对,这就是Tool Call的复杂性。普通的函数调用可能就一步,但这里是一条多步骤的调用链路,参数错了、顺序乱了都不行。所以Shopify一开始就决定不能只靠调闭源大模型的API,得自己微调。他们原文说得很直白——如果你基于封闭模型构建产品,任何有API密钥的人都能获得类似能力。真正的壁垒在于专有数据、训练方案和迭代速度。
这个判断我觉得挺有魄力的。毕竟直接调GPT-4多省事啊,但确实,模型行为不可控、数据隐私、成本线性增长这些问题都是实打实的。那他们选了什么基座模型?
Qwen-32B,阿里通义千问开源的,320亿参数,在代码生成和工具调用上表现不错,而且Apache 2.0许可证,商业使用没问题。最终微调完的结果也挺亮眼的——速度提升2.2倍,成本降低60%,性能还超过了闭源大模型。
好,效果先放这儿,我更想聊的是他们怎么解决冷启动的。能力还没上线,没有任何真实用户对话,训练数据从哪来?
这就是最妙的地方了。他们的思路是——不去猜用户会怎么说,而是先看用户已经做成了什么。你想,虽然AI助手还没上线,但商家早就手动创建了大量的Flow啊,有些还在天天跑。这些Flow不是对话数据,但它们是用户意图的结果。
哦我懂了,就像你没听见顾客点菜,但你看到桌上的菜了。从菜可以倒推他大概想吃什么,厨师是怎么做的。
哈哈对,这个比喻很到位。具体来说分三步。第一步,筛选可靠的Flow样本。不是什么Flow都要,得是最近7天运行过的活跃流程,而且来自拥有多个合格Flow的商家,排除那些随手试一下就丢了的低质量样本。同类描述还只保留一个,保证多样性。
嗯,先把ground truth的质量把住。然后呢?
第二步,用更强的大模型反向生成用户请求。拿到一个验证过的Flow,让强模型来推测——商家可能会说什么话,才会想要这个Flow。这其实是一种反向工程,学术上叫问题生成。但关键是它锚定了真实业务产物,不是凭空编的。
这一步我觉得特别聪明。传统的合成数据很容易飘,但这里有真实的业务结果兜底,生成的问题再怎么样也不会离谱到哪去。
对。第三步是最关键的——构造完整的工具调用轨迹。光有输入和输出不够,还得补出中间路径:先搜了什么工具、看了哪些候选、取了什么配置、怎么加的条件和动作、最后怎么组装成可执行的Flow。这个中间过程才是模型真正需要学的东西。
所以他们构造的不是简单的问答对,而是一条完整的链路——从业务结果到用户问法,到工具路径,到最终回答,再到可执行的工作流。
没错。而且他们还专门建了一个300个手工样例的基准测试集,评估三个维度:语义正确性——生成的流程是不是真的做了用户想做的事;语法正确性——有没有格式错误导致执行失败;还有延迟——用户等多久能拿到结果。这三个维度其实代表了企业级AI评估的核心逻辑:模型对不对、系统跑不跑得起来、用户等不等得起。
300个手工样例听起来不多,但每个都要领域专家手动编写验证,覆盖各种边界情况,工作量其实不小。
是的。而且Shopify也很坦诚地说了,这套方法只是第一步。合成数据终究有分布偏差的问题,倒推出来的用户请求不可能完全代表真实用户上线后的各种说法——模糊的、错误的、奇奇怪怪的表达都会有。所以冷启动之后,关键是尽快建立真实数据的收集和反馈闭环。
这个我觉得特别值得强调。很多团队容易陷入两个极端,要么死等数据不敢动手,要么觉得合成数据万事大吉。Shopify的态度是先用合成数据把系统跑起来,然后持续用线上数据迭代。
对,这才是务实的工程思维。而且这个思路的适用范围远不止电商。你想想,企业里到处都是这种'没有对话数据但有业务结果'的场景——审批流里有决策痕迹、配置表里有规则逻辑、历史工单里有处理路径。这些都可以用同样的方法挖出来、翻译成训练样本。
嗯,总结一下的话,Shopify这套方法的核心就是一句话——从结果倒推意图,从意图补出路径。很多企业AI的训练数据不是收集来的,是从业务系统里挖出来的。如果你也在做企业级Agent,手头没有用户数据,不妨先看看你的业务系统里,有没有用户已经留下的'答案'。
说得好。先认出它是业务痕迹,再把它翻译成训练样本。这可能是真实数据积累起来之前,最靠谱的冷启动策略了。