播客频道 | OpenAI开源GPT-OSS：16G显存跑O4级模型，部署教程全解析

最近AI圈有个事儿，说实话我看到的时候第一反应是——不会吧？OpenAI，那个被大家戏称'Close AI'的公司，居然真的开源了一个性能直逼自家O4的模型。哈哈对，我当时也是这个反应。GPT-OSS，8月5号正式发布的，20B和120B两个版本。你知道OpenAI上一次开源对话模型是什么时候吗？2019年的GPT-2。中间隔了整整六年。六年，这中间发生了多少事。那这次开源的模型到底什么水平？我看到一个数据特别抓眼球——16G显存就能跑。对，这是20B那个版本，16G显存推理，24G显存就能微调。你想想，一张RTX 4090就够了。而且它不是那种阉割版的开源，120B版本的性能跟O4 mini基本持平。更夸张的是，千问3的推理模型是235B的参数量，GPT-OSS 120B用不到一半的参数就超过了它。等等，我想先帮听众理清一个概念。参数量小但性能强，这背后是什么技术在支撑？核心是两个东西。第一个是MOE架构，就是混合专家架构。你可以把它想象成一个大公司，里面有很多不同领域的专家，但每次来一个任务，不需要所有人都上，路由器会判断这个任务该派谁去处理。所以虽然总参数量很大，但每次实际计算只用到一小部分，效率就上来了。DeepSeek用的也是这个架构。嗯，所以本质上是'养兵千日用兵一时'的思路。对，比喻很到位。第二个关键技术是原生FP4混合精度。传统做法是模型训练完了再做量化压缩，多少会掉精度。但GPT-OSS是在训练阶段就考虑了4位精度的表示，通过量化感知训练让模型在低精度下也能保持接近全精度的性能。显存占用直接压到FP16的四分之一左右。这就是为什么16G显存就能跑的原因。所以它不是事后压缩，而是从出生就是这个体质。那速度呢？ 20B版本在RTX 3090上大概40个token每秒，在最新的RTX 5090上能到200个token每秒。这个速度做日常对话完全够用了，甚至可以说很流畅。而且它还用了分组多查询注意力机制，就是GQA，把注意力头分组共享Key和Value，进一步降低了显存开销和延迟。Llama、Gemma这些主流模型也在用这个技术。技术架构聊完了，我特别好奇它的训练流程。OpenAI说GPT-OSS跟O4用的是同一套训练流程？没错，三个阶段：预训练、全量指令微调、再加上RL强化学习后训练。其中强化学习这一步是关键中的关键，它让模型学会什么时候该深入思考、什么时候快速回答。而且GPT-OSS比DeepSeek R1更进一步，用了更严格的无监督思维链对齐方法。无监督思维链对齐，这个怎么理解？简单说就是模型不依赖人工标注的推理步骤，而是自己生成推理过程，然后自己筛选高质量的。这样训练出来的模型会更精确地控制推理链的长度——简单问题不啰嗦，复杂问题不跳步。你可以理解为它学会了'该想多久就想多久'这件事。这就引出了另一个实用功能——可控推理强度。对，跟O3、O4一样，你可以通过系统提示词设置推理强度。高强度适合复杂数学证明这类场景，低强度一秒内就能出结果，日常聊天完全够。另外它还支持工具调用和结构化输出，做AI Agent开发的话，这些都是刚需功能。模型能自己决定什么时候调API、查数据库，然后把结果整合到回答里。说到实际使用，很多听众可能最关心怎么部署。我看官方给了好几种方案？四种方案，覆盖不同人群。最简单的是Ollama，一键部署，下载客户端选模型就完事了，特别适合新手。因为模型原生就是FP4精度，下载下来直接就是最佳状态，不用自己折腾量化。第二种是用Transformers库，适合需要自定义控制的开发者，从Hugging Face或者魔搭社区下载权重自己写推理代码。那企业级场景呢？企业级推荐vLLM或者SGLang。vLLM的核心技术叫PagedAttention，借鉴了操作系统虚拟内存的分页管理思想，解决显存碎片化问题，吞吐量能比原生推理提升几倍到几十倍。SGLang在这基础上针对多轮对话和Agent调用做了深度优化。两个都支持OpenAI兼容的API接口，企业直接替换就行。当然如果完全不想本地部署，也可以通过OpenRouter这类API聚合平台直接调用。最后我想聊聊更大的格局。年初DeepSeek R1爆火，Sam Altman亲口说'闭源是历史发展的错误方向'，现在GPT-OSS落地了。你怎么看这件事对整个行业的影响？其实你对比一下就知道这次的分量。谷歌只开源小模型，马斯克开源过时模型，Meta的Llama许可证还有商业限制。OpenAI这次是真正把工业级性能的模型完全开放出来了。120B版本是目前开源模型里的新SOTA，仅次于O3。这意味着什么？以前你要用顶级推理能力，必须付费调API。现在一张消费级显卡就能跑，个人开发者、创业团队、学术研究者都能直接用上接近最强闭源模型的能力。开源与顶级性能不矛盾——GPT-OSS确实证明了这一点。16G显存跑O3级推理模型，这个门槛低到让人没有理由不去试试。嗯，我觉得2025年会被记住的一件事就是，大模型应用的民主化真正开始加速了。不是口号，是实实在在一张4090就能跑起来的那种加速。

OpenAI开源GPT-OSS：16G显存跑O4级模型，部署教程全解析

更多播客

AI热点风向标·06月07日午间版

AI热点风向标·06月07日早间版

每日AI新鲜事·06月07日早间播报