共 942 篇相关文章

深入解析ViBench评测基准,了解它如何弥补SWE-bench在应用构建能力评估上的不足,从端到端生成、视觉交互、功能完整性等维度全面衡量AI编程工具的实际表现。

ViBench是首个基于真实世界任务的端到端应用创建基准测试,评估AI从零构建完整应用的能力。测试结果显示Claude Opus 4.8在性能和性价比上领先,揭示了传统SWE-bench与实际开发能力的差距。
每日AI新鲜事·06月04日早间播报
06月04日早间播报 AI领域热点新闻速递,10条精选资讯

谷歌正式发布Gemini 3.5系列首款模型Flash,跳过3.0版本实现代际飞跃,主打智能体和编程两大核心能力,定位为连接前沿智能与现实世界行动的新一代AI模型。

OpenAI Codex速率限制成为开发者社区热议话题。本文解析Codex速率限制的核心痛点、OpenAI团队的沟通策略及可能的政策调整方向,并为开发者提供实用应对建议。

Cursor团队正式推出官方SDK,支持Python和TypeScript,开发者可基于Composer 2.5构建自定义AI Agent。了解SDK核心能力、应用场景及限时90%折扣优惠,探索AI编程工具平台化新趋势。

Windsurf将自动化功能整合到Agents Window中,开发者可在统一工作区创建管理AI Agent与自动化任务。新建自动化运行限时半价,了解这次更新对AI编程工具平台化趋势的意义。

Cursor正式集成Atlassian Jira,开发者可直接在Jira中分配工单给Cursor,由AI自动完成需求理解、代码编写到PR提交的全流程。本文解析这一集成的工作方式、行业趋势及对开发团队的影响。

OpenAI Codex预览版正式登陆ChatGPT移动应用,支持开发者通过手机远程启动编程任务、审查代码输出并批准操作。了解移动端与桌面端协同工作流的设计理念及实际应用场景。

从经典XKCD编译等待梗到AI编程时代的新解读,探讨程序员等待编译、等待AI生成代码背后的工作方式变革,以及如何重新定义开发者生产力。

Cursor发布基于全球最全面AI编程数据集的开发者习惯报告,揭示AI如何改变软件开发范式。本文解读报告核心发现,分析AI编程对开发者工作方式、模型选择策略及行业趋势的深远影响。

OpenAI为Codex背景代理推出像素标识图(Pixel Identicons)功能,通过稳定的视觉标识解决多代理协作中的识别难题,降低开发者在多任务管理中的认知负担,提升AI编程工作流效率。

Cursor推出Auto-review模式,通过智能风险评估实现分层审批,低风险操作自动放行,高风险操作保留人工确认。详解该功能的工作原理、对开发者工作流的影响及AI编程自主化趋势。

OpenAI提出"开发者已经进化",探讨AI时代新构建者思维的核心内涵:从代码编写者到产品构建者的角色转变,开发门槛降低带来的行业趋势,以及全栈个体崛起等深远影响。

Anthropic推出Claude Marketplace并新增Augment Code、Bolt.new、CodeRabbit AI、Hebbia、Legora五家合作伙伴。详解Marketplace运作模式、各合作伙伴特点及对企业和开发者的影响。

一位开发者用Claude完成六个项目,起点都是同一个反问:Why not?探讨AI时代的创造者思维,如何用Claude降低试错成本、加速从想法到原型的过程,以及普通开发者如何建立高效的AI辅助开发习惯。

Replit总裁Michele Catasta分享平台最新里程碑:超5000万用户通过自然语言与Claude模型构建软件。深入解读Replit如何推动编程民主化,以及自然语言编程对行业的深远影响。

OpenAI推出Sites功能,让Codex将创意直接转化为可交互网站和应用,通过URL即可分享。本文详解Sites核心价值、企业协作优势及与Cursor、Bolt.new等竞品的差异化分析。