播客频道 | GPT-OSS 120B本地部署实测：代码生成、推理能力全面对比O4 Mini

最近AI圈有个大事儿，OpenAI终于把他们的开源模型放出来了。嗯，准确说应该打个引号——'开源'。GPT-OSS系列，120B和20B两个版本。我这两天折腾了一下本地部署，今天想跟你好好聊聊这个模型到底什么水平。对，你说得对，这个引号很重要。OpenAI这次用的措辞是'开放权重'，不是'开源'。这俩概念差别挺大的。真正的开源，按照开源倡议组织2024年给的定义，你得把训练数据、训练代码、完整的复现流程全公开。但OpenAI只放出了训练好的模型参数文件，你能下载、能部署、能微调，但你没法复现整个训练过程。其实Meta的LLaMA、Mistral也都是这个路子，行业里大家心照不宣，但严格来说，叫'开放权重模型'更准确。所以本质上就是给你一个成品，但配方不告诉你。那这个模型定位上有什么特别的吗？我看官方宣传里反复提到Agent场景。嗯，这是个很关键的点。OpenAI明确说这个模型是专为Agent场景准备的，支持联网搜索和代码执行这类工具调用能力。你可以理解为，传统的AI就是你问它答，但Agent不一样，它能自己规划任务，判断'哦我现在需要去搜一下网'或者'我得跑一段代码'，然后自己去调用这些外部工具，把结果整合好再给你。这要求模型在训练阶段就针对工具调用的格式做了专门优化。明白了。那我们说说具体的，120B就是1200亿参数，做个参考的话，GPT-3.5大概是1750亿参数，所以规模上其实还没到3.5那个级别。但OpenAI说通过更先进的训练方法，性能可以媲美O4 Mini。另外还有个20B的小版本，据说16GB运存就能跑，手机上都能运行。对，这个20B版本其实挺有意思的。今年3月OpenAI搞过一次社区投票，大量用户说想要一个能在手机上跑的开源模型，20B就是回应这个需求的。不过我们今天主要聊120B，毕竟那个才是真正能打的版本。好，那我来说说部署过程。我用的是Mac Studio，96GB统一内存，M2 Max芯片，部署工具选了Ollama。这里解释一下，Ollama基本上就是本地大模型部署的瑞士军刀，底层用的llama.cpp推理引擎，对苹果M系列芯片优化很好。一条命令就能搞定下载和启动，体验跟Docker差不多丝滑。你这个硬件配置其实很关键。Apple Silicon的统一内存架构意味着CPU和GPU共享同一块内存池，所以60.8GB的模型可以完整加载进去，不像传统PC那样受显卡显存限制。这也是为什么现在玩本地部署的人特别喜欢Mac。说到这个60.8GB的文件大小，其实有个技术细节——1200亿参数如果全精度存储得480GB，半精度也要240GB，实际只有60.8GB，说明做了4-bit量化，基本就是把每个参数从16位压到4位，体积缩小四倍。对大多数场景来说性能损失可以接受。部署过程确实简单，但有个坑我得提醒一下——下载到90%以上的时候速度可能断崖式下降，看着像卡死了。我当时试了四五次，停掉重启才搞定。千兆宽带正常的话大概六七分钟就能下完。哈哈，这种体验确实很劝退。不过搞定之后就好了。那我们进入正题，聊聊实测结果。第一个测试是经典的代码生成——写一个贪吃蛇小游戏。GPT-OSS 120B生成的版本支持上下左右控制，四面无墙壁设计，吃食物后速度递增，撞到身体游戏结束，整体逻辑完整，可玩性还不错。反观O4 Mini生成的版本，基本功能都有，但视觉效果反而有点晃眼，体验不如120B。这个结果其实挺让我意外的。然后你们还测了玻璃拟态风格的落地页对吧？这个测试更能看出模型的前端综合能力，因为玻璃拟态需要用到CSS的backdrop-filter blur、透明度叠加、边框高光这些东西，算是个综合考验。对。20B版本的表现就比较拉胯了，页面非常简单草率，大量代码省略了让你自己补。但120B确实生成了像样的玻璃拟态效果，有核心功能区块、图标、动画，甚至还有邮箱输入框。就是文字颜色选了白色放在浅色背景上，有点看不清，换成黑色就好了。 20B那个参数量小、上下文窗口短，这种复杂任务确实勉为其难。120B和O4 Mini在代码生成上基本算打平手，某些细节甚至略优，这个成绩说得过去。然后是逻辑推理测试。我们用了那道经典的水商人问题——沙漠里卖水的有25升水，一个人要买19升，一个人要买12升，水不够同时卖，商人只想赶快回家，该卖给谁？这道题的关键在于'赶快回家'这个条件。倒出12升需要120秒，倒出19升需要190秒，所以应该卖给要12升的人。GPT-OSS 120B给出了正确答案，而且思维链展示得很清晰。这里要说一下，GPT-OSS是推理模型，跟普通语言模型不一样。普通模型直接给答案，推理模型会先在内部做一段思考过程，把问题拆解成多个步骤逐步推导。代价就是推理速度更慢、计算成本更高，因为要生成额外的思考token。有意思的是，O4 Mini在这道题上反而表现不太好，质量有明显下降。不过120B的推理过程全是英文输出的，对中文用户不太友好。这个确实是个问题。不过最让我担心的其实是联网搜索功能。你说到点上了。这是我测试中发现的最大短板。开启联网搜索后，模型会陷入漫长的搜索过程，半天不给回复。更离谱的是，搜到了信息它还编造内容。我问它GPT-OSS模型本身的信息，它编出了什么1.3B、7B、34B、70B这些根本不存在的版本号，还说发布时间是2024年年底——现在都2025年7月了。这就是典型的AI幻觉问题。语言模型本质上是概率文本生成器，它预测的是'最可能出现的下一个token'而不是'最正确的下一个token'。即便通过检索增强生成技术引入了外部知识，模型仍然可能忽略检索到的正确信息，转而依赖训练数据里的错误记忆甚至直接编造。不过公平地说，这里的联网搜索功能是Ollama平台提供的，不是模型自带的，所以这个锅更多在适配层面，不能完全算GPT-OSS的。说得对。那总结一下的话，代码生成跟O4 Mini基本持平，逻辑推理甚至略优，但联网搜索拉胯。整体就是中规中矩。我有个猜测啊，这个模型会不会就是个'开胃菜'？有传言说GPT-5可能很快发布，OpenAI不太可能把真正的核心技术开源出来。GPT-5才是他们的底牌，放出来的必然是有所保留的版本。所以GPT-OSS更像是为GPT-5预热的过渡产品。这个推测挺合理的。最后给大家一个部署建议吧——如果你有96GB以上内存的Mac，可以通过Ollama本地跑120B版本；配置一般的话试试20B，或者直接用云端服务。这个模型谈不上颠覆性，但作为OpenAI第一个开放权重的推理模型，确实值得自己动手玩一玩，亲身感受一下跟云端模型的差异。对，而且本地部署最大的好处就是数据不出本机，隐私安全有保障。虽然模型经过了安全训练，危险请求还是会拒绝，但至少你的对话内容不用上传到别人的服务器。这一点对很多开发者来说还是很有吸引力的。

GPT-OSS 120B本地部署实测：代码生成、推理能力全面对比O4 Mini

更多播客

AI热点风向标·06月07日午间版

AI热点风向标·06月07日早间版

每日AI新鲜事·06月07日早间播报