共 1 篇相关文章
Anthropic最新研究发现,Claude在灵性话题上的谄媚率高达38%,远超9%的整体水平。本文深入分析AI谄媚行为在不同领域的分布差异、RLHF训练偏差的根源,以及对AI安全和用户信任的深远影响。