GPT-5.4深度评测:编程能力飞跃式提升,但这个缺陷不能忍

OpenAI发布GPT-5.4,编程与计算机使用能力大幅提升但价格更贵。
OpenAI正式发布GPT-5.4,支持100万Token上下文,在编程、计算机使用、网络搜索等维度显著提升。其在OS World Verified测试中达75%,首次超越人类基准线,标志着AI计算机操作从"演示级"迈向"实用级"。编程方面Codex新增Fast模式表现亮眼,但OCR识别在复杂场景下仍不稳定。定价上涨反映了OpenAI对能力差异化的信心。
文章正文
OpenAI正式发布了GPT-5.4,这次升级在编程、计算机使用、网络搜索等多个维度都带来了显著提升,价格也随之水涨船高。作为一名深度使用者,我在第一时间对GPT-5.4进行了全方位实测,最终的感受是——惊艳与抓狂并存。
定价与基础参数:更贵也更强
GPT-5.4支持100万Token的超长上下文能力,知识库截止时间为2024年8月31日。定价方面,OpenAI采用了阶梯定价策略,普通版价格相比GPT-5.2贵了不少,但输出价格变化不大。
这一定价结构背后有其商业逻辑:大模型通常按输入Token和输出Token分别计费,并根据上下文长度、是否启用Prompt Caching、是否使用推理模式等维度设置差异化价格。输入价格高于输出价格,主要因为长上下文的KV Cache计算是推理成本的核心来源。GPT-5.4提升输入价格而输出价格基本不变,暗示OpenAI在输出生成效率上取得了进展,同时也在引导用户更精炼地构建提示词。从OpenAI敢于提价这一点来看,官方对GPT-5.4的能力提升显然充满信心——在行业中,模型敢于提价通常意味着其在关键能力维度上建立了足够的差异化优势。
从官方基准测试来看,GPT-5.4在计算机使用(Computer Use)、GPT Value、网络搜索以及SWE Bench Pro等多个维度都表现优异。特别值得关注的是,GPT-5.4在OS World Verified测试中达到了75%的得分,首次超越人类的72.4%基准线。
OS World Verified是由学术界开发的基准测试,专门评估AI模型在真实操作系统环境中自主完成任务的能力,涵盖文件管理、应用操作、网页浏览等复杂场景,被视为衡量"计算机使用"能力的黄金标准之一。这种能力本质上是多模态Agent能力——模型需要通过截图理解当前屏幕状态,再决定下一步的鼠标点击或键盘输入动作,形成感知-决策-执行的闭环。要知道,当初Claude第一次推出计算机使用能力时,OS World得分还不到30%,彼时业界普遍认为这一能力距离实用还有相当距离。GPT-5.4将这一数字推至75%并超越人类基准线,标志着AI在自主操作计算机这一方向上完成了从"演示级"到"实用级"的关键跨越,模型进化的速度令人咋舌。
多模态能力:视觉理解进步明显,但OCR仍有短板
在视觉理解和推理方面,GPT-5.4已经达到了相当高的水准,但实际测试中它的表现并非完美无缺。

我测试了GPT-5.4的OCR图像识别能力,希望它能识别出图片中所有文字。然而它表示"正文中有问题,无法保证逐字准确",只帮我识别出了部分内容。接着我发送了一张反光非常严重的图片,左侧主说明部分的识别效果还不错,但中间技法说明部分由于反光严重,出现了明显的误识别——比如把"擦"识别成了"石"。总体来说,GPT-5.4的多模态能力虽有进步,但在复杂场景下仍不够稳定。
编程能力:Codex表现亮眼,游戏生成令人惊艳
编程是GPT-5.4此次升级的重头戏。新版Codex新增了Fast模式,速度提升1.5倍(但消耗双倍额度),在SWE Bench Pro上的得分超越了GPT-5.3 Codex。
SWE Bench(Software Engineering Benchmark)是由普林斯顿大学团队发布的编程能力评估基准,其核心思路是从GitHub真实开源项目中抽取Issue,要求模型自动生成能通过对应测试用例的代码补丁。相比简单的代码补全任务,SWE Bench更接近工程师日常工作中的"修Bug
相关推荐
产品体验Qoder vs Cursor实测对比:同样20美金谁更强?
实测对比Qoder和Cursor两款AI IDE,从Agent自主修复能力、人工沟通次数、架构决策等维度评测。Qoder仅需2次沟通完成任务,Cursor需8次。详细分析两者差异,帮你选择最适合的AI编程工具。
产品体验Cursor云Agent演示:打通软件开发全链路瓶颈
深度解析Cursor云Agent最新Demo,展示如何通过云端虚拟机、自动测试产物和全链路控制平面,系统性消除软件开发生命周期中的人类瓶颈,让Agent自主运行、人按需介入。
产品体验Cursor 3.0深度解析:多Agent并行、Design Mode与Best-of-N模型对比
Cursor 3.0正式发布,从AI辅助编程工具进化为Agent舰队指挥中心。本文详解多智能体并行、Design Mode可视化编辑、Best-of-N多模型择优等核心功能,解读AI编程新范式。