#代码能力评测

共 4 篇相关文章

从OpenClaw 35万Star项目中选取3个真实PR，让GLM、DeepSeek、Kimi等7个AI模型独立修Bug。GLM 5.1以89.3分反超Sonnet 4.6的87.2分，测试覆盖碾压全场，国产开源AI编程能力已追上Claude Sonnet基准线。

GPT-5.4全面评测：OSWorld超越Claude Opus 4.6，原生计算机使用能力炸裂，推理编程合体Token效率提升50%，幻觉率暴降33%，搜索能力刷新纪录。OpenAI首个全能通用模型深度解析。

阿里开源Qwen3.6 35B模型，256专家MoE架构仅需3B激活参数，SWE Bench成绩逼近Claude Opus。xAI发布Voice Cloning API支持28种语言，NVIDIA开源OpenShell安全沙箱，Sam Altman表态模型智力优先。

深度评测Google Gemini 3 Flash在编码、多模态理解、写作翻译等方面的真实表现。涵盖Flash反超Pro的基准跑分解析、搭配Cursor的编程实战、视频音频图像识别全面测试，附实用建议与使用技巧。