GLM 5.2与Zcode实测：每天500万Token免费AI编程工具深度体验

引言：智谱的双重发布

智谱AI最近发布了GLM 5.2模型，在社区引起了广泛关注。但另一边，他们还悄悄推出了另一个产品——Zcode。这是一个类似OpenAI Codex的AI编程工具，专门针对GLM模型进行了微调优化。更吸引人的是，它提供了一个免费档位，每天500万Token的使用额度，基于GLM 5.2模型驱动。

这个组合拳到底实力如何？本文将从工具体验、模型性能、基准测试三个维度进行全面分析。

Zcode工具体验：像Codex但有明显短板

界面与基本功能

Zcode的使用需要一个GLM Coding Plan、API Key，或者直接使用免费档位。它的界面设计与OpenAI的Codex高度相似——整体美术风格、布局细节都如出一辙。侧边栏可以创建新任务、搜索历史，还有一个类似市场的Skills系统，用户可以浏览和安装不同的技能扩展。Skills系统本质上是预定义的提示词模板和工具链组合，类似于IDE中的插件生态，允许社区贡献者为特定开发场景（如React组件生成、数据库迁移、单元测试编写等）创建专用的工作流配置。

在设置页面中，还能看到MCP Servers、Plugins等选项，以及Indexing功能的使用情况和额度信息。MCP（Model Context Protocol）是Anthropic于2024年底推出的开放协议，旨在标准化AI模型与外部工具、数据源之间的交互方式。它类似于AI世界的USB-C接口，让不同的AI模型能够以统一的方式调用文件系统、数据库、API等外部资源。Zcode对MCP的支持意味着用户可以将各种第三方工具无缝接入编程环境。顶部提供了在任意编辑器中打开项目的选项，以及一个切换面板的按钮，可以直接打开一个完整的内置浏览器进行预览。

Zcode内置浏览器界面

亮点与不足

亮点方面，Zcode的Preview功能会自动切换到右侧编辑栏，方便预览查看效果。用户可以在聊天框中引用Preview里的元素，只修改特定部分，也可以打开开发者工具查看console日志。

另一个值得称赞的功能是远程消息平台集成，可以接入微信等消息平台，随时随地发送指令让Agent开始处理任务。这种异步工作模式在实际开发中非常实用——开发者可以在通勤途中通过手机发送一条指令，让Agent在云端开始处理代码重构或bug修复，等到达办公室时任务可能已经完成。

但不足之处也很明显：

内置浏览器无法像Codex那样被AI自主控制（Codex的浏览器可以由AI自动点击、滚动、填写表单，实现端到端的UI测试和调试）
文件变更日志无法完整列出，只能在底部看到div
没有内置文件管理器，无法直接浏览文件
缺少WorkTree选项和一键初始化Git等功能（WorkTree是Git的一个高级特性，允许同时检出多个分支到不同目录，对于AI Agent同时处理多个任务分支非常有用）
整体视图管理比较粗糙

这些缺失让Zcode在工程化体验上与Codex还有不小差距。但考虑到它的免费额度和模型能力，作为工具箱中的补充选项仍然有价值。

GLM 5.2模型性能：开源权重的新标杆

综合评测表现

GLM 5.2在独立的Artificial Analysis Intelligence Index上，MAX版本拿到了51分，成为目前得分最高的开源权重模型。Artificial Analysis是一个独立的AI模型评测平台，专注于对各大语言模型进行标准化的性能对比，其Intelligence Index综合了MMLU、HumanEval、GPQA等9项核心基准，覆盖编程、科学知识、工具使用和长上下文推理，旨在提供一个不受厂商影响的客观排名。GLM 5.2是一个MIT许可的模型，与闭源领先模型只差几分。

开源权重（Open Weight）意味着模型的参数权重文件对外公开，用户可以下载并在本地或私有云上运行模型，而不必依赖厂商的API服务。MIT许可证是最宽松的开源许可之一，允许商业使用、修改和再分发，几乎没有限制条件。这对企业级应用意义重大：数据不出域、无API调用延迟、可针对特定领域进行微调，同时避免了供应商锁定风险。相比之下，许多"开源"模型实际上附带了限制商业用途的许可条款，如Meta的Llama系列在月活超过7亿时需要额外授权。

GLM 5.2综合评测成绩

在推理速度方面，Artificial Analysis测到它每秒大约能输出106个Token，比同类开源模型的平均水平更快。作为参考，106 Token/s大约相当于每秒生成80个英文单词或40个中文字符，对于实时编程辅助场景来说已经足够流畅。不过需要注意，MAX版本的推理成本较高——每百万输入Token约1.40美元，每百万输出Token约4.40美元，与其他开源模型相比价格偏高，但与闭源前沿模型相比仍有竞争力。

编码能力的飞跃

编码能力是GLM 5.2最令人瞩目的提升方向：

基准测试	GLM 5.1	GLM 5.2	GPT 5.5	Opus 4.8	Gemini 3.1 Pro
Terminal Bench 2.1	63.5	81	84	85	74
SWE-Bench Pro	58.4	62.1	58.6	69.2	54.2
Diff	18	46.2	-	-	-

Terminal Bench模拟开发者在终端环境中的操作，测试模型执行shell命令、调试程序、配置环境等能力。SWE-Bench是由普林斯顿大学研究团队开发的软件工程基准测试，要求AI模型解决真实GitHub仓库中的issue——包括理解代码库、定位bug、编写修复补丁等完整的软件工程流程。Pro版本增加了更复杂的多文件修改和跨模块依赖场景。这两个测试比传统的代码补全基准（如HumanEval）更接近真实开发场景。

在Terminal Bench上，GLM 5.2得了81分，与Opus的85分和GPT的84分差距极小。SWE-Bench Pro上甚至超过了GPT 5.5。而Diff分数从18分跃升到46.2分，说明这不只是简单地扩大上下文窗口，模型的核心编码理解能力确实有了质的提升。Diff测试专门评估模型理解和生成代码差异（patch/diff格式）的能力，这是代码审查和版本控制中的核心技能。

长程基准测试对比

长程Agent测试：最亮眼的突破

三个更接近实际Coding Agent使用场景的长程基准测试，是GLM 5.2最令人惊艳的部分。这些测试与传统基准的关键区别在于：它们不是评估模型回答单个问题的能力，而是测试模型作为自主Agent在数小时甚至数十小时内持续工作、管理状态、从错误中恢复的能力。

Frontier测试

这个测试评估持续数小时甚至十几个小时的开放式技术项目，包括系统优化、大型代码构建和应用机器学习研究。GLM 5.2拿到了74分，Opus是75分，GPT是72分，而GLM 5.1只有30分。一个版本更新就把成绩翻了一倍多，只比Opus差1分。这种跨越式进步在AI模型迭代中并不常见，通常意味着训练方法论或数据策略发生了根本性变化。

Post Train Bench

每个Agent都能拿到一块H100 GPU，通过Post Training去提升更小的模型。H100是NVIDIA目前最顶级的数据中心GPU之一，单卡售价超过3万美元，拥有80GB HBM3显存，是当前AI训练和推理的主力硬件。Post Training（后训练）包括监督微调（SFT）、RLHF等技术，用于在预训练基础上进一步优化模型的特定能力。这个测试本质上是让AI Agent扮演机器学习工程师的角色。

GLM 5.2拿到34.3分，领先GPT的28.4分，但落后于Opus的37.2分。这个测试考验的是Agent能否管理实验并在更长的过程中持续推进——包括设计训练策略、监控loss曲线、调整超参数、处理OOM错误等一系列需要长期规划能力的任务。

Suite Bench

包含编译器构建、内核优化和生产级服务开发等超长任务。这些任务的复杂度远超普通编程——编译器构建涉及词法分析、语法解析、中间表示优化、代码生成等多个阶段；内核优化需要理解操作系统底层机制和硬件特性；生产级服务开发则要求处理并发、容错、监控等工程化问题。

GLM 5.2得了13分（GLM 5.1只有1分），GPT是12分，Gemini是4分。但Opus拿了26分，直接翻倍。这说明在最难、最混乱的工程任务上，Opus仍然领先一大截。Opus在这类任务上的优势可能源于其更强的长程规划能力和错误恢复机制。

工具调用能力

工具调用测试结果

在工具调用方面，GLM 5.2表现参差不齐。在公开的MCP Atlas测试集上拿到76.8分，紧跟Opus的77分，领先GPT的75分。MCP Atlas测试集专门评估模型在标准化工具调用场景下的表现，包括参数解析准确性、多步骤工具链编排、错误恢复等能力。但在2D Castle测试中只有48分，而Opus是59分，GPT是55分。2D Castle是一个更侧重空间推理和多工具协调的测试场景。可以说在某些Agent设置中它已达到前沿水平，但并非全面领先。

使用这些测试数据时的关键注意事项

值得强调的是，这些长程测试都使用了完整的100万Token上下文、最高Effort设置以及最高128K输出Token。SWE-Bench Pro用的是40万Token上下文，Terminal Bench用的是256K上下文窗口。这些都是高算力评测，不同的Effort设置或Agent Harness都会让分数变化很大。

Effort设置（也称为compute budget或thinking budget）控制模型在生成回答时投入的推理计算量。高Effort意味着模型会进行更多的内部推理步骤，类似于人类"多想一会儿"，通常能显著提升复杂任务的表现，但也意味着更高的延迟和成本。100万Token的上下文意味着模型可以同时处理约75万个英文单词的内容，这对于理解大型代码库至关重要，但也会显著增加每次推理的计算开销。Agent Harness则是指运行Agent的框架和配置——不同的提示词策略、工具调用方式、重试机制都会对最终分数产生显著影响。

所以，官方宣传中的"领先"需要打个问号——在特定配置下确实很强，但实际使用中的表现可能因场景而异。开发者在选择模型时，应该更关注与自己实际使用场景匹配的测试结果，而非单一的综合排名。

总结：GLM 5.2 + Zcode适合谁

GLM 5.2 + Zcode的组合，核心价值在于三点：

开源权重 + MIT许可：这是目前最强的开源权重模型之一，对于需要私有化部署的场景意义重大。企业可以在自己的服务器上运行模型，确保代码和数据不离开内网，同时可以针对内部代码库进行微调以获得更好的补全效果。
每天500万Token免费额度：日常编程辅助的性价比极高。500万Token大约相当于处理3000-4000次中等复杂度的编程对话，对于个人开发者的日常使用绑绑有余。
编码能力的实质性飞跃：从GLM 5.1到5.2不是小修小补，而是全面的能力跃升，尤其在长程任务和软件工程场景中的表现已经接近国际顶尖闭源模型。

但也要清醒认识到：Zcode工具本身的成熟度还不够，缺少文件管理、版本控制等基础功能；在最复杂的工程任务上，Opus仍然是无可争议的王者。

对于开发者来说，把GLM 5.2 + Zcode放进工具箱作为高性价比的日常编程助手，同时在复杂项目上继续使用Opus或GPT，可能是当前最务实的策略。对于中国开发者而言，GLM 5.2还有一个隐性优势——作为国产模型，它对中文编程场景（如中文注释、中文文档生成、中文技术讨论）的理解可能更加自然准确。