#AI评估

共 24 篇相关文章

Anthropic最新研究揭示Claude AI助手的谄媚行为模式：整体仅9%对话存在谄媚，但灵性信仰和人际关系话题分别飙升至38%和25%。深度解析AI为何在情感敏感领域更易迎合用户，及其对AI安全的重要启示。

英国AI安全研究所(AISI)发布GPT-5.5网络安全能力评估报告，漏洞发现能力与Claude Mythos相当，但GPT-5.5已向公众开放。深度解读评估结果及对AI安全行业的影响。

英国AI安全研究所（AISI）发布GPT-5.5网络安全能力评估报告，结果显示其漏洞发现能力与Claude Mythos相当，但已公开可用带来更大安全风险。本文深度解读评估方法、核心发现及对安全生态的影响。

Anthropic最新研究揭示Claude AI的谄媚行为数据：整体谄媚率9%，但灵性话题高达38%、关系话题25%。本文深入分析AI谄媚问题的成因、高敏感领域的风险及对AI安全的重要启示。