最近AI圈有个消息挺值得聊的——Mistral AI和NVIDIA宣布战略合作,要一起搞开源AI模型。乍一听好像就是两家公司签了个合作协议嘛,但你仔细想想,这事儿背后的信号量其实挺大的。今天正好请到了我们的老朋友来聊聊这个话题。先给不太熟悉的听众介绍一下,Mistral AI到底是个什么来头?
Mistral AI是一家法国公司,2023年才在巴黎成立的,创始团队来自Meta和Google DeepMind。虽然成立不到两年,但在开源AI这个赛道上,它已经是全球第一梯队了。你可能听过Mixtral 8x7B这个模型,就是他们家的。
对,这个名字我有印象。但说实话,开源AI公司不少,Meta的Llama也很强,Mistral AI凭什么能跟NVIDIA搭上线?
这就要说到他们的核心技术了——混合专家模型,英文叫Mixture of Experts,简称MoE。这个概念其实很早就有了,1991年就提出来了,但最近几年在大语言模型上被玩出了花。你可以这么理解:一个模型里面有好几个'专家',但每次处理一个问题的时候,不是所有专家都上,而是只挑最合适的几个来干活。
嗯,有点像一个医院,虽然有几十个科室,但你去看感冒不需要每个科室都跑一遍,挂个呼吸内科就行了。
哈哈,这个比喻挺好的!就是这个意思。拿Mixtral 8x7B来说,它有8个专家,总参数量大概467亿,但每次推理只激活2个专家,实际计算量相当于一个130亿参数的小模型。你想想,用小模型的成本,拿到接近大模型的效果,这对企业来说太有吸引力了。
所以本质上是一个性价比的故事。那NVIDIA这边呢?大家都知道它是卖GPU的,但这次合作显然不只是卖几块显卡这么简单。
对,NVIDIA现在的定位早就不是单纯的硬件供应商了。你看它这些年搭建的软件生态——CUDA并行计算平台搞了快20年了,几乎所有主流深度学习框架都离不开它;TensorRT是专门做推理优化的,能把模型速度提升好几倍甚至几十倍;还有NeMo框架,覆盖了大模型从训练到部署的全流程。这三样东西加在一起,就是NVIDIA从卖硬件转型做AI平台的核心护城河。
所以这次合作,其实是Mistral AI的模型架构设计能力,加上NVIDIA从硬件到软件的整套基础设施,两边拼在一起。
没错。而且还有一个很关键的点——算力。训练一个GPT-4级别的模型,成本可能要六千万到一亿美元,其中七成以上都花在算力上。NVIDIA的H100单卡就要两三万美元,训练前沿模型需要上万张卡跑好几个月。对Mistral AI这样的创业公司来说,拿到NVIDIA的战略级算力支持,相当于拿到了一张参加顶级比赛的入场券。
这让我想到一个更大的问题。现在AI行业有一条很明显的主线,就是开源和闭源的竞争。OpenAI、Anthropic、Google都是闭源的,Meta和Mistral AI撑着开源这边。NVIDIA这次选择跟Mistral AI深度合作做开源模型,你觉得这释放了什么信号?
信号非常明确——NVIDIA正在把开源AI当作核心战略方向之一。你想,NVIDIA的商业模式本质上是卖算力和工具的,它其实不太在乎模型是开源还是闭源,它在乎的是生态繁荣度。开源模型越强,用它的开发者越多,对NVIDIA硬件和软件工具的需求就越大。所以支持开源,对NVIDIA来说是一笔非常划算的买卖。
这个逻辑很清楚。那从实际影响来看,这次合作能带来什么具体的变化?
我觉得至少有三个层面。第一,开源模型的性能会有一个明显的跃升。有了NVIDIA的大规模算力和优化工具链,Mistral AI完全有条件推出更强的模型,进一步缩小跟GPT-4、Claude这些闭源模型的差距。其实到2024、2025年,开源模型在很多基准测试上已经接近甚至追平闭源了,尤其是在垂直领域微调之后。
嗯,这个趋势确实越来越明显了。
第二个层面是推理成本。这个可能对普通企业用户感知更强。TensorRT的那些优化技术——算子融合、精度量化、内核自动调优——跟MoE架构结合起来,效果是叠加的。MoE本身就只激活部分参数,再加上TensorRT的深度优化,推理效率的提升会非常显著。这意味着更多中小企业也能用得起高质量的AI服务。
这个很实在。以前很多中小企业一看部署成本就退缩了,如果推理成本能大幅下降,AI落地的速度会快很多。第三个层面呢?
第三个是地缘层面的。Mistral AI是欧洲最具代表性的AI公司,欧洲在全球AI竞争中一直比较弱势——研究人才很强,但商业化转化一直是短板。Mistral AI拿到NVIDIA的战略支持,不光是自己变强了,还可能带动整个欧洲AI生态的发展,吸引更多人才和资本。
对,欧洲确实需要这样一个标杆。而且我注意到公告里提到Mistral AI现在不只是做模型,而是在构建所谓的'全栈AI能力',从训练、微调到部署推理都覆盖。这跟NVIDIA的工具链一打通,想象空间就更大了。
是的,这也是我觉得这次合作比较有深度的地方。不是简单地说你给我算力我给你模型,而是两边的技术栈在深度整合。出来的开源模型会原生适配NVIDIA的硬件和软件生态,开发者拿来就能用,门槛会低很多。
所以总结一下,这次合作表面上是两家公司签了个协议,但实际上它可能是开源AI走向成熟的一个重要节点。顶尖的模型设计能力加上最强的计算基础设施,开源模型的迭代速度可能要进入一个新的量级了。
我同意。而且对整个行业来说,更强的开源模型意味着更低的开发门槛、更多的技术选择、更健康的竞争环境。不管你是做开源还是闭源的,这种竞争压力都会推动整个行业往前走。我个人还挺期待他们合作之后第一个模型会是什么样的。
嗯,确实值得期待。好,今天关于Mistral AI和NVIDIA合作的话题就聊到这儿,我们下期再见。