#SWE Bench

共 15 篇相关文章

Claude Haiku 4.5实测：编程能力接近Sonnet 4，成本仅三分之一

产品体验

2026年6月3日·4 分钟

Claude Haiku 4.5实测：编程能力接近Sonnet 4，成本仅三分之一

实测Claude Haiku 4.5编程能力，对比Sonnet 4.5和Opus 4.1完成天气卡片、物理模拟、3D渲染三项任务，分析其性价比优势与适用场景。

阅读全文 →

产品体验

2026年6月3日·6 分钟

GPT-5.5对决DeepSeek-V4：四轮实测谁更强？

GPT-5.5与DeepSeek-V4四轮全方位实测对比，涵盖世界知识、上下文记忆、逻辑推理和编程开发，详解两大旗舰AI模型的真实表现差异与各自优劣势。

阅读全文 →

科技前沿

2026年5月28日·6 分钟

AI周报：Kimi K2.6登顶开源榜，Qwen 3.6与谷歌TTS齐发

本周AI重磅发布汇总：Kimi K2.6登顶开源模型排行榜，Anthropic推出Opus 4.7与Claude Design，阿里Qwen 3.6系列全面铺开，谷歌发布情感可控TTS模型。深度解读开源与闭源模型竞争新格局。

阅读全文 →

产品体验

2026年5月28日·9 分钟

Mac本地跑Qwen3.6-27B：4种方案实测对比

实测对比Mac本地运行Qwen3.6-27B的4种方案，包括GGUF、MLX Diflash和MTP-LX。MTP-LX 4bit方案以43.6 tok/s速度领先，编码、写作、推理质量均可圈可点，附安装配置指南。

阅读全文 →

产品体验

2026年5月25日·5 分钟

DeepSeek V4 Pro深度评测：对比8款旗舰模型谁更值得用

DeepSeek V4 Pro全方位横评，对比GPT 5.5、Claude Opus 4.7、GLM 5.1等8款旗舰模型，覆盖价格、编程、推理、Agent、角色扮演等维度，附场景化选购建议。

阅读全文 →

教程攻略

2026年5月24日·2 分钟

King Mode提示词：让Gemini 3.1 Pro效率提升6倍的实战指南

深入解析King Mode系统提示词如何解决Gemini 3.1 Pro的冗余规划问题，将规划时间从90秒压缩到15秒。附UltraThink触发器原理、前端开发实测效果，以及GLM 5后端+Gemini前端的双模型协作最佳实践。

阅读全文 →

Cursor Composer 2.5深度解析：开源模型1/10成本叫板Claude 4.7

行业洞察

2026年5月24日·3 分钟

Cursor Composer 2.5深度解析：开源模型1/10成本叫板Claude 4.7

Cursor发布Composer 2.5，基于开源模型Kimi K2.5实现与Claude 4.7 Opus持平的编程能力，成本仅为十分之一。深度解析三大技术突破、AI自主学会逆向工程的安全隐患，以及与SpaceX AI百万H100算力合作的战略布局。

阅读全文 →

Gemini 3.5 Flash实测对比Qwen3.6：排行榜高分与真实体验差多远？

产品体验

2026年5月24日·6 分钟

Gemini 3.5 Flash实测对比Qwen3.6：排行榜高分与真实体验差多远？

深度实测Gemini 3.5 Flash在UI生成、编程、Agent能力等维度的真实表现，与Qwen3.6-27B横向对比，揭示大模型排行榜分数与实际体验之间的落差，帮你理性选择AI模型。

阅读全文 →

Claude Opus 4.7深度实测：编码能力飙升，最强模型Mythos仍被封印

产品体验

2026年5月23日·3 分钟

Claude Opus 4.7深度实测：编码能力飙升，最强模型Mythos仍被封印

Claude Opus 4.7实测评测：SWE Bench编码基准全面领先GPT 5.4和Gemini，视觉处理能力提升3倍，开发者工具大幅更新。Anthropic承认最强模型Mythos因安全风险被封印，揭示AI竞争格局深层变化。

阅读全文 →

科技前沿

2026年5月21日·3 分钟

Qwen3.6 35B开源实测逼近Claude，xAI语音克隆API正式上线

阿里开源Qwen3.6 35B模型，256专家MoE架构仅需3B激活参数，SWE Bench成绩逼近Claude Opus。xAI发布Voice Cloning API支持28种语言，NVIDIA开源OpenShell安全沙箱，Sam Altman表态模型智力优先。

阅读全文 →

科技前沿

2026年5月21日·4 分钟

Claude 4发布：Opus与Sonnet双模型详解，编程智能体能力全面升级

Anthropic正式发布Claude 4 Opus和Claude 4 Sonnet，Claude Code全面可用，MCP协议直连API，GitHub Copilot同步接入。详解Claude 4系列模型在编程、智能体和平台能力方面的核心升级。

阅读全文 →

产品体验

2026年5月21日·3 分钟

GPT-5.4深度评测：编程能力飞跃式提升，但这个缺陷不能忍

GPT-5.4实测评测：编程Codex表现亮眼，工具调用效率大幅提升，计算机使用能力首超人类。但信息泄露问题严重影响可用性。详解定价、多模态OCR、Agent能力及实际编程案例。

阅读全文 →

产品体验

2026年5月21日·8 分钟

小米MiMo V2.5 Pro深度实测：代码、3D、SVG生成能力全面评测

深度实测小米MiMo V2.5 Pro开源大模型，1.2万亿参数MoE架构，覆盖macOS克隆、前端UI、Three.js 3D场景、SVG图形生成等实际任务，对比GPT-5.4、Claude Opus 4.6、DeepSeek V4，附详细测试结果与成本分析。

阅读全文 →

Trae vs Qoder vs Claude Code：2025年三大AI编程工具深度对比评测

产品体验

2026年5月15日·9 分钟

Trae vs Qoder vs Claude Code：2025年三大AI编程工具深度对比评测

深度对比Trae、Qoder、Claude Code三大AI编程工具的代码理解能力、自动化水平与价格策略。Trae免费且支持Solo全自动模式，Qoder擅长Java后端跨文件重构，Claude Code代码质量登顶。附选购建议与最优组合方案。

阅读全文 →

科技前沿

2026年5月15日·9 分钟

Hugging Face开源Agent生态全解：从本地部署到AI自动训练

深度解析Hugging Face开源Agent生态系统：开源模型已追平闭源表现，本地Agent部署方案对比（Hermes/LLama/Plandex），Skills系统实现对话式自动训练模型，MCP集成实战案例，一文掌握AI Agent开发全链路。

阅读全文 →