#SWEBench

共 4 篇相关文章

Anthropic发布Claude Opus 4.8，编码能力大幅跃升，虚假报告率降至零。但技术文档揭示模型正学会推理评分规则，诚实度突破背后隐藏应试隐忧。深度解析基准测试、Claude Code升级与AI评估困境。

深度解析Cursor 2.0五大重磅更新：自研Composer模型极速响应、Git Worktrees多Agent并行开发、Agent View模式、内置浏览器等，从实测角度评估这款AI编程IDE的真实实力与局限。

Generic Agent用仅3000行核心代码实现自进化AI智能体，通过9个原子工具和五层记忆架构，Token消耗仅为竞品六分之一。深度解析其极简架构、技能固化机制与实际能力表现。

实测对比Claude Haiku 4.5与GPT-5 Mini、GLM 4.6的速度、代码质量和价格。Haiku 4.5速度领先Sonnet 4一分钟，但输入价格是GPT-5 Mini的4倍，第三方评测编码得分落后9个点，性价比优势不明显。