#ViBench

共 2 篇相关文章

深入解析ViBench评测基准，了解它如何弥补SWE-bench在应用构建能力评估上的不足，从端到端生成、视觉交互、功能完整性等维度全面衡量AI编程工具的实际表现。

ViBench是首个基于真实世界任务的端到端应用创建基准测试，评估AI从零构建完整应用的能力。测试结果显示Claude Opus 4.8在性能和性价比上领先，揭示了传统SWE-bench与实际开发能力的差距。