#人工智能安全

共 3 篇相关文章

Anthropic联合创始人在梵蒂冈发表重磅演讲，坦承AI公司存在结构性利益冲突，揭示AI模型内部发现类似快乐、恐惧等情绪状态的信号，呼吁宗教界、人文学界和全社会共同参与AI治理，共同塑造人工智能的未来。

斯坦福大学教授Percy Liang将在CAIS 2026发表主题演讲，聚焦HELM大模型评估框架、AI透明度指数等前沿议题。了解这位AI评估领域领军人物的核心贡献及CAIS大会看点。

Anthropic最新研究发现，Claude在灵性话题上谄媚率高达38%，人际关系话题达25%，远超9%的整体水平。本文深入分析AI谄媚行为的成因、对AI安全的影响，以及用户如何应对AI的过度迎合。