GPT-5.4深度评测：编程能力飞跃式提升，但这个缺陷不能忍

文章正文

OpenAI正式发布了GPT-5.4，这次升级在编程、计算机使用、网络搜索等多个维度都带来了显著提升，价格也随之水涨船高。作为一名深度使用者，我在第一时间对GPT-5.4进行了全方位实测，最终的感受是——惊艳与抓狂并存。

定价与基础参数：更贵也更强

GPT-5.4支持100万Token的超长上下文能力，知识库截止时间为2024年8月31日。定价方面，OpenAI采用了阶梯定价策略，普通版价格相比GPT-5.2贵了不少，但输出价格变化不大。

这一定价结构背后有其商业逻辑：大模型通常按输入Token和输出Token分别计费，并根据上下文长度、是否启用Prompt Caching、是否使用推理模式等维度设置差异化价格。输入价格高于输出价格，主要因为长上下文的KV Cache计算是推理成本的核心来源。GPT-5.4提升输入价格而输出价格基本不变，暗示OpenAI在输出生成效率上取得了进展，同时也在引导用户更精炼地构建提示词。从OpenAI敢于提价这一点来看，官方对GPT-5.4的能力提升显然充满信心——在行业中，模型敢于提价通常意味着其在关键能力维度上建立了足够的差异化优势。

从官方基准测试来看，GPT-5.4在计算机使用（Computer Use）、GPT Value、网络搜索以及SWE Bench Pro等多个维度都表现优异。特别值得关注的是，GPT-5.4在OS World Verified测试中达到了75%的得分，首次超越人类的72.4%基准线。

OS World Verified是由学术界开发的基准测试，专门评估AI模型在真实操作系统环境中自主完成任务的能力，涵盖文件管理、应用操作、网页浏览等复杂场景，被视为衡量"计算机使用"能力的黄金标准之一。这种能力本质上是多模态Agent能力——模型需要通过截图理解当前屏幕状态，再决定下一步的鼠标点击或键盘输入动作，形成感知-决策-执行的闭环。要知道，当初Claude第一次推出计算机使用能力时，OS World得分还不到30%，彼时业界普遍认为这一能力距离实用还有相当距离。GPT-5.4将这一数字推至75%并超越人类基准线，标志着AI在自主操作计算机这一方向上完成了从"演示级"到"实用级"的关键跨越，模型进化的速度令人咋舌。

多模态能力：视觉理解进步明显，但OCR仍有短板

在视觉理解和推理方面，GPT-5.4已经达到了相当高的水准，但实际测试中它的表现并非完美无缺。

GPT-5.4图像识别能力测试

我测试了GPT-5.4的OCR图像识别能力，希望它能识别出图片中所有文字。然而它表示"正文中有问题，无法保证逐字准确"，只帮我识别出了部分内容。接着我发送了一张反光非常严重的图片，左侧主说明部分的识别效果还不错，但中间技法说明部分由于反光严重，出现了明显的误识别——比如把"擦"识别成了"石"。总体来说，GPT-5.4的多模态能力虽有进步，但在复杂场景下仍不够稳定。

编程能力：Codex表现亮眼，游戏生成令人惊艳

编程是GPT-5.4此次升级的重头戏。新版Codex新增了Fast模式，速度提升1.5倍（但消耗双倍额度），在SWE Bench Pro上的得分超越了GPT-5.3 Codex。

SWE Bench（Software Engineering Benchmark）是由普林斯顿大学团队发布的编程能力评估基准，其核心思路是从GitHub真实开源项目中抽取Issue，要求模型自动生成能通过对应测试用例的代码补丁。相比简单的代码补全任务，SWE Bench更接近工程师日常工作中的"修Bug

GPT-5.4深度评测：编程能力飞跃式提升，但这个缺陷不能忍

文章正文

定价与基础参数：更贵也更强

多模态能力：视觉理解进步明显，但OCR仍有短板

编程能力：Codex表现亮眼，游戏生成令人惊艳

相关推荐

Qoder vs Cursor实测对比：同样20美金谁更强？

Cursor云Agent演示：打通软件开发全链路瓶颈

Cursor 3.0深度解析：多Agent并行、Design Mode与Best-of-N模型对比