共 4 篇相关文章
产品体验从OpenClaw 35万Star项目中选取3个真实PR,让GLM、DeepSeek、Kimi等7个AI模型独立修Bug。GLM 5.1以89.3分反超Sonnet 4.6的87.2分,测试覆盖碾压全场,国产开源AI编程能力已追上Claude Sonnet基准线。
科技前沿GPT-5.4全面评测:OSWorld超越Claude Opus 4.6,原生计算机使用能力炸裂,推理编程合体Token效率提升50%,幻觉率暴降33%,搜索能力刷新纪录。OpenAI首个全能通用模型深度解析。
科技前沿阿里开源Qwen3.6 35B模型,256专家MoE架构仅需3B激活参数,SWE Bench成绩逼近Claude Opus。xAI发布Voice Cloning API支持28种语言,NVIDIA开源OpenShell安全沙箱,Sam Altman表态模型智力优先。
产品体验深度评测Google Gemini 3 Flash在编码、多模态理解、写作翻译等方面的真实表现。涵盖Flash反超Pro的基准跑分解析、搭配Cursor的编程实战、视频音频图像识别全面测试,附实用建议与使用技巧。