最近AI圈有个事儿,说实话我看到的时候第一反应是——不会吧?OpenAI,那个被大家戏称'Close AI'的公司,居然真的开源了一个性能直逼自家O4的模型。
哈哈对,我当时也是这个反应。GPT-OSS,8月5号正式发布的,20B和120B两个版本。你知道OpenAI上一次开源对话模型是什么时候吗?2019年的GPT-2。中间隔了整整六年。
六年,这中间发生了多少事。那这次开源的模型到底什么水平?我看到一个数据特别抓眼球——16G显存就能跑。
对,这是20B那个版本,16G显存推理,24G显存就能微调。你想想,一张RTX 4090就够了。而且它不是那种阉割版的开源,120B版本的性能跟O4 mini基本持平。更夸张的是,千问3的推理模型是235B的参数量,GPT-OSS 120B用不到一半的参数就超过了它。
等等,我想先帮听众理清一个概念。参数量小但性能强,这背后是什么技术在支撑?
核心是两个东西。第一个是MOE架构,就是混合专家架构。你可以把它想象成一个大公司,里面有很多不同领域的专家,但每次来一个任务,不需要所有人都上,路由器会判断这个任务该派谁去处理。所以虽然总参数量很大,但每次实际计算只用到一小部分,效率就上来了。DeepSeek用的也是这个架构。
嗯,所以本质上是'养兵千日用兵一时'的思路。
对,比喻很到位。第二个关键技术是原生FP4混合精度。传统做法是模型训练完了再做量化压缩,多少会掉精度。但GPT-OSS是在训练阶段就考虑了4位精度的表示,通过量化感知训练让模型在低精度下也能保持接近全精度的性能。显存占用直接压到FP16的四分之一左右。这就是为什么16G显存就能跑的原因。
所以它不是事后压缩,而是从出生就是这个体质。那速度呢?
20B版本在RTX 3090上大概40个token每秒,在最新的RTX 5090上能到200个token每秒。这个速度做日常对话完全够用了,甚至可以说很流畅。而且它还用了分组多查询注意力机制,就是GQA,把注意力头分组共享Key和Value,进一步降低了显存开销和延迟。Llama、Gemma这些主流模型也在用这个技术。
技术架构聊完了,我特别好奇它的训练流程。OpenAI说GPT-OSS跟O4用的是同一套训练流程?
没错,三个阶段:预训练、全量指令微调、再加上RL强化学习后训练。其中强化学习这一步是关键中的关键,它让模型学会什么时候该深入思考、什么时候快速回答。而且GPT-OSS比DeepSeek R1更进一步,用了更严格的无监督思维链对齐方法。
无监督思维链对齐,这个怎么理解?
简单说就是模型不依赖人工标注的推理步骤,而是自己生成推理过程,然后自己筛选高质量的。这样训练出来的模型会更精确地控制推理链的长度——简单问题不啰嗦,复杂问题不跳步。你可以理解为它学会了'该想多久就想多久'这件事。
这就引出了另一个实用功能——可控推理强度。
对,跟O3、O4一样,你可以通过系统提示词设置推理强度。高强度适合复杂数学证明这类场景,低强度一秒内就能出结果,日常聊天完全够。另外它还支持工具调用和结构化输出,做AI Agent开发的话,这些都是刚需功能。模型能自己决定什么时候调API、查数据库,然后把结果整合到回答里。
说到实际使用,很多听众可能最关心怎么部署。我看官方给了好几种方案?
四种方案,覆盖不同人群。最简单的是Ollama,一键部署,下载客户端选模型就完事了,特别适合新手。因为模型原生就是FP4精度,下载下来直接就是最佳状态,不用自己折腾量化。第二种是用Transformers库,适合需要自定义控制的开发者,从Hugging Face或者魔搭社区下载权重自己写推理代码。
那企业级场景呢?
企业级推荐vLLM或者SGLang。vLLM的核心技术叫PagedAttention,借鉴了操作系统虚拟内存的分页管理思想,解决显存碎片化问题,吞吐量能比原生推理提升几倍到几十倍。SGLang在这基础上针对多轮对话和Agent调用做了深度优化。两个都支持OpenAI兼容的API接口,企业直接替换就行。当然如果完全不想本地部署,也可以通过OpenRouter这类API聚合平台直接调用。
最后我想聊聊更大的格局。年初DeepSeek R1爆火,Sam Altman亲口说'闭源是历史发展的错误方向',现在GPT-OSS落地了。你怎么看这件事对整个行业的影响?
其实你对比一下就知道这次的分量。谷歌只开源小模型,马斯克开源过时模型,Meta的Llama许可证还有商业限制。OpenAI这次是真正把工业级性能的模型完全开放出来了。120B版本是目前开源模型里的新SOTA,仅次于O3。这意味着什么?以前你要用顶级推理能力,必须付费调API。现在一张消费级显卡就能跑,个人开发者、创业团队、学术研究者都能直接用上接近最强闭源模型的能力。
开源与顶级性能不矛盾——GPT-OSS确实证明了这一点。16G显存跑O3级推理模型,这个门槛低到让人没有理由不去试试。
嗯,我觉得2025年会被记住的一件事就是,大模型应用的民主化真正开始加速了。不是口号,是实实在在一张4090就能跑起来的那种加速。