#模型测评

共 3 篇相关文章

使用BenchLocal工具对DeepSeek V4 Pro、V4 Flash与Qwen3.6 27B进行8大类85场景实测对比，涵盖工具调用、代码调试、推理数学等维度，V4 Pro总分领先6%但数学推理意外翻车，Qwen3.6 Q6在智能体场景媲美V4 Pro。

OpenAI开源GPT-OSS 120B和20B模型全面测评，涵盖幻觉测试、逻辑推理、代码生成、SQL查询、文档分析等多维度实测，附部署方式与选型建议，助你选择最适合的开源大模型。

在Claude Code中实测Kimi K2 Thinking模型，从文本创作、编程开发、智能体构建到全栈应用多维度评测，对比Claude Sonnet 4.5和DeepSeek，分析其作为高性价比AI编程替代方案的真实表现。