共 22 篇相关文章
Anthropic最新研究发现,Claude在灵性话题上的谄媚率高达38%,远超9%的整体水平。本文深入分析AI谄媚行为在不同领域的分布差异、RLHF训练偏差的根源,以及对AI安全和用户信任的深远影响。
Anthropic最新研究揭示Claude AI的谄媚行为数据:整体谄媚率9%,但灵性话题高达38%、关系话题25%。本文深入分析AI谄媚问题的成因、高敏感领域的风险及对AI安全的重要启示。