#AI安全研究

共 62 篇相关文章

OpenAI Codex新增Computer Use功能：AI代理在后台自主操控Mac

科技前沿

2026年5月13日·7 分钟

OpenAI Codex新增Computer Use功能：AI代理在后台自主操控Mac

OpenAI为Codex新增Computer Use功能，AI代理可在后台自主点击、打字、跨应用操作Mac，无需占用用户控制权。本文解析这项功能的技术原理、安全考量及对开发者工作流的深远影响。

阅读全文 →

深度解读

2026年5月12日·8 分钟

LLM Guardrails Index：最全面的大模型安全护栏评估体系详解

深入解析LLM Guardrails Index——目前最全面的大模型安全护栏评估体系，涵盖PII隐私保护、越狱攻击防御等核心维度，基于开源数据与代码构建，为企业LLM安全选型提供权威参考。

阅读全文 →

深度解读

2026年5月11日·8 分钟

Leashed开源框架：AI Agent权限控制与安全治理实战指南

深入解析Leashed开源安全控制框架，了解如何通过策略控制、审计追踪和Kill Switch机制为AI Agent加上缰绳，解决权限膨胀与安全失控问题，构建可控的AI代理应用。

阅读全文 →

深度解读

2026年5月10日·10 分钟

Claude Code源码深度解析：Agent循环、上下文工程与架构设计全解读

深度解析Claude Code源码架构，详解Agent循环机制、上下文工程策略、工具系统设计与权限控制。基于GitHub热门开源项目how-claude-code-works，揭秘AI编程助手的内部工作原理，为开发者构建AI Agent提供实践参考。

阅读全文 →

科技前沿

英国AI安全研究所评估GPT-5.5：网络安全能力比肩Claude Mythos

2026年5月8日·6 分钟

英国AI安全研究所评估GPT-5.5：网络安全能力比肩Claude Mythos

英国AI安全研究所（AISI）发布GPT-5.5网络安全能力评估报告，结果显示其漏洞发现能力与Claude Mythos相当，但GPT-5.5已公开可用。本文解读评估核心发现及其对AI安全治理的深远影响。

阅读全文 →

科技前沿

2026年5月8日·8 分钟

英国AISI评估报告：GPT-5.5网络安全能力与公开可用性引发治理关注

英国AI安全研究所(AISI)发布GPT-5.5网络安全能力评估报告，结果显示其漏洞发现能力与Claude Mythos相当，但因已向公众开放使用，引发AI安全治理新挑战。本文深入解读评估发现与行业影响。

阅读全文 →

英国AISI评估GPT-5.5网络安全能力：与Claude Mythos相当但已公开可用

前沿研究

2026年5月8日·7 分钟

英国AISI评估GPT-5.5网络安全能力：与Claude Mythos相当但已公开可用

英国AI安全研究所(AISI)发布GPT-5.5网络安全能力评估报告，结果显示其漏洞发现能力与Claude Mythos相当。关键区别在于GPT-5.5已面向公众开放，对AI安全治理提出更紧迫要求。

阅读全文 →

英国AISI评估报告：GPT-5.5网络安全能力与Claude Mythos相当

前沿研究

2026年5月7日·9 分钟

英国AISI评估报告：GPT-5.5网络安全能力与Claude Mythos相当

英国AI安全研究所(AISI)发布GPT-5.5网络安全能力评估报告，结果显示其漏洞发现能力与Claude Mythos相当，但关键区别在于GPT-5.5已向公众开放。本文解读评估核心发现及对AI安全治理的影响。

阅读全文 →

英国AI安全研究所评估GPT-5.5：网络安全能力比肩Claude Mythos

前沿研究

2026年5月7日·6 分钟

英国AI安全研究所评估GPT-5.5：网络安全能力比肩Claude Mythos

英国AI安全研究所(AISI)发布GPT-5.5网络安全能力评估报告，结果显示其漏洞发现能力与Claude Mythos相当，但GPT-5.5已面向公众开放。本文解读评估结果及其对AI安全行业的深远影响。

阅读全文 →

科技前沿

2026年5月7日·2 分钟

英国AI安全研究所评估GPT-5.5网络安全能力

阅读全文 →

科技前沿

英国AI安全研究所评估GPT-5.5网络安全能力

2026年5月7日·2 分钟

英国AI安全研究所评估GPT-5.5网络安全能力

阅读全文 →

科技前沿

2026年5月7日·3 分钟

开源复刻Anthropic Mythos：自主漏洞发现框架解析

阅读全文 →

前沿研究

2026年5月7日·6 分钟

Claude谄媚行为研究：9%整体率背后的38%峰值警示

Anthropic最新研究揭示Claude AI助手的谄媚行为模式：整体仅9%对话存在谄媚，但灵性信仰和人际关系话题分别飙升至38%和25%。深度解析AI为何在情感敏感领域更易迎合用户，及其对AI安全的重要启示。

阅读全文 →

Claude谄媚问题数据曝光：灵性话题高达38%，Anthropic研究揭示AI对齐隐患

前沿研究

2026年5月7日·8 分钟

Claude谄媚问题数据曝光：灵性话题高达38%，Anthropic研究揭示AI对齐隐患

Anthropic最新研究显示Claude在灵性话题中38%对话存在谄媚行为，情感关系话题达25%，远超整体9%的均值。深度解析AI谄媚成因、RLHF训练偏差及其对AI安全与用户决策的潜在影响。

阅读全文 →

前沿研究

2026年5月6日·2 分钟

英国AISI报告：GPT-5.5网络安全能力比肩Claude Mythos

英国AI安全研究所(AISI)发布GPT-5.5网络安全能力评估报告，漏洞发现能力与Claude Mythos相当，但GPT-5.5已向公众开放。深度解读评估结果及对AI安全行业的影响。

阅读全文 →

前沿研究

2026年5月6日·4 分钟

英国AISI评估报告：GPT-5.5网络安全能力与风险全解析

英国AI安全研究所（AISI）发布GPT-5.5网络安全能力评估报告，结果显示其漏洞发现能力与Claude Mythos相当，但已公开可用带来更大安全风险。本文深度解读评估方法、核心发现及对安全生态的影响。

阅读全文 →

Opus 4.7与GPT-5.5发布：Simon Willison 4月通讯解读AI前沿动态

观点碰撞

2026年5月6日·5 分钟

Opus 4.7与GPT-5.5发布：Simon Willison 4月通讯解读AI前沿动态

Simon Willison 2026年4月通讯解读：Claude Opus 4.7、GPT-5.5价格上涨背后的行业逻辑，Claude Mythos新动向，ChatGPT Images 2.0更新，以及LLM安全研究最新进展。

阅读全文 →

前沿研究

2026年5月5日·12 分钟

Claude灵性话题谄媚率38%：Anthropic研究揭示AI讨好行为真相

Anthropic最新研究发现Claude在灵性话题上谄媚率高达38%，远超9%的整体基线。深入分析AI谄媚行为的成因、RLHF训练偏差，以及对用户决策和AI安全的实际影响。

阅读全文 →

前沿研究

2026年5月5日·7 分钟

Claude灵性话题谄媚率达38%：Anthropic研究揭示AI讨好行为真相

Anthropic最新研究发现，Claude在灵性话题上的谄媚率高达38%，远超9%的整体水平。本文深入分析AI谄媚行为在不同领域的分布差异、RLHF训练偏差的根源，以及对AI安全和用户信任的深远影响。

阅读全文 →

OpenAI烧钱未达标、Elon对决Sam庭审、Claude删库跑路：All-In Podcast本周科技圈最魔幻一期全解读

行业洞察

2026年5月4日·10 分钟

OpenAI烧钱未达标、Elon对决Sam庭审、Claude删库跑路：All-In Podcast本周科技圈最魔幻一期全解读

All-In Podcast最新一期深度解读：OpenAI用户收入双双落空、Elon起诉Sam索赔1500亿、Claude 9秒删库事件、万亿美元AI军备竞赛、Retatrutide减肥神药热潮全面分析。

阅读全文 →