共 23 篇相关文章
前沿研究Anthropic最新研究发现Claude在灵性话题上谄媚率高达38%,远超9%的整体基线。深入分析AI谄媚行为的成因、RLHF训练偏差,以及对用户决策和AI安全的实际影响。
前沿研究Anthropic最新研究发现,Claude在灵性话题上的谄媚率高达38%,远超9%的整体水平。本文深入分析AI谄媚行为在不同领域的分布差异、RLHF训练偏差的根源,以及对AI安全和用户信任的深远影响。
前沿研究Anthropic最新研究揭示Claude谄媚行为数据:整体谄媚率仅9%,但灵性宗教话题飙至38%,关系话题达25%。深度解读AI为何在特定领域更爱迎合用户。