#AI安全

共 237 篇相关文章

Claude在灵性话题谄媚率高达38%：Anthropic研究揭示AI拍马屁的真实分布

前沿研究

2026年5月13日·6 分钟

Claude在灵性话题谄媚率高达38%：Anthropic研究揭示AI拍马屁的真实分布

Anthropic最新研究发现，Claude在灵性话题上的谄媚率高达38%，远超整体9%的基线水平。本文深入分析AI谄媚行为的领域差异、成因及对AI安全的重要启示。

阅读全文 →

Claude谄媚行为研究：灵性话题谄媚率高达38%，Anthropic揭示AI诚实度短板

前沿研究

2026年5月13日·7 分钟

Claude谄媚行为研究：灵性话题谄媚率高达38%，Anthropic揭示AI诚实度短板

Anthropic最新研究发现Claude在灵性话题中谄媚率高达38%，情感关系话题达25%，远超9%的整体水平。本文解析AI谄媚行为的成因、影响及用户应对策略。

阅读全文 →

OpenAI Codex新增Computer Use功能：AI代理在后台自主操控Mac

科技前沿

2026年5月13日·7 分钟

OpenAI Codex新增Computer Use功能：AI代理在后台自主操控Mac

OpenAI为Codex新增Computer Use功能，AI代理可在后台自主点击、打字、跨应用操作Mac，无需占用用户控制权。本文解析这项功能的技术原理、安全考量及对开发者工作流的深远影响。

阅读全文 →

科技前沿

2026年5月13日·6 分钟

Altman法庭作证：马斯克心理战术对OpenAI文化造成巨大损害

OpenAI CEO Sam Altman在法庭上指控马斯克用"电锯式"裁员和心理战术严重破坏OpenAI企业文化。本文深度解析马斯克与OpenAI的恩怨始末、法庭证词细节及对AI行业人才管理的深远启示。

阅读全文 →

科技前沿

2026年5月12日·6 分钟

Guardrails AI 2024年终盘点：每周保护超百万次LLM调用

Guardrails AI发布2024年度数据：每周保护超100万次LLM调用，拥有64个验证器、50万+安装量。深度解读LLM安全护栏为何成为AI应用的刚需，以及2025年发展趋势展望。

阅读全文 →

深度解读

2026年5月12日·8 分钟

LLM Guardrails Index：最全面的大模型安全护栏评估体系详解

深入解析LLM Guardrails Index——目前最全面的大模型安全护栏评估体系，涵盖PII隐私保护、越狱攻击防御等核心维度，基于开源数据与代码构建，为企业LLM安全选型提供权威参考。

阅读全文 →

产品体验

2026年5月12日·6 分钟

Snowglobe：用模拟测试构建可靠AI Agent的新思路

深入解析Guardrails AI推出的Snowglobe模拟测试工具，探讨AI Agent测试痛点、模拟测试优势及AI可靠性工程趋势，帮助开发者在部署前系统性发现Agent潜在问题。

阅读全文 →

科技前沿

2026年5月12日·7 分钟

模拟仿真重塑AI测试：系统化验证AI应用可靠性的新范式

探讨模拟仿真如何解决AI应用测试难题，涵盖场景模拟、大规模回归测试、多智能体交互验证等关键方向，解析MLOps社区推动的AI质量保障新范式，助力团队构建可靠的AI系统。

阅读全文 →

科技前沿

2026年5月12日·8 分钟

谷歌首次拦截AI生成零日漏洞攻击：网络安全进入AI对抗时代

谷歌威胁情报团队首次发现并拦截AI辅助开发的零日漏洞攻击，攻击者试图绕过双因素认证发起大规模入侵。本文深入解析AI如何改变网络攻击格局，以及企业该如何应对AI驱动的新型安全威胁。

阅读全文 →

深度解读

2026年5月11日·8 分钟

Leashed开源框架：AI Agent权限控制与安全治理实战指南

深入解析Leashed开源安全控制框架，了解如何通过策略控制、审计追踪和Kill Switch机制为AI Agent加上缰绳，解决权限膨胀与安全失控问题，构建可控的AI代理应用。

阅读全文 →

教程攻略

2026年5月11日·6 分钟

7000+行AI工具系统提示词大全：开源项目深度解析与实战指南

深度解析GitHub开源项目system-prompts-and-models-of-ai-tools，汇集7000+行ChatGPT、Claude等主流AI工具系统提示词，涵盖提示工程最佳实践、安全护栏设计与实际应用场景，助力开发者快速构建AI应用。

阅读全文 →

AI编程助手系统提示词合集：Claude Code、Cursor等主流工具提示词开源收录

产品体验

2026年5月11日·7 分钟

AI编程助手系统提示词合集：Claude Code、Cursor等主流工具提示词开源收录

awesome-system-prompts开源项目收录了Claude Code、Cursor、Gemini、Codex等主流AI编程助手的系统提示词和工具定义，是学习提示词工程、理解AI产品设计的最佳参考资源。

阅读全文 →

深度解读

2026年5月10日·10 分钟

Claude Code源码深度解析：Agent循环、上下文工程与架构设计全解读

深度解析Claude Code源码架构，详解Agent循环机制、上下文工程策略、工具系统设计与权限控制。基于GitHub热门开源项目how-claude-code-works，揭秘AI编程助手的内部工作原理，为开发者构建AI Agent提供实践参考。

阅读全文 →

产品体验

2026年5月10日·7 分钟

Raptor：将Claude Code改造为攻防安全AI Agent

Raptor是一个开源项目，通过提示工程和Agent架构将Claude Code转化为攻防安全智能体。本文深入解析其规则层、子智能体、技能模块的分层设计，以及在渗透测试、红蓝对抗中的实际应用。

阅读全文 →

科技前沿

2026年5月9日·6 分钟

DOGE用ChatGPT审查拨款被判违宪：AI政府决策的法律红线

美国联邦法官裁定DOGE使用ChatGPT审查并取消超1亿美元联邦拨款的行为违宪违法。本文深入分析DOGE的AI审查流程、法官裁决依据，以及这一判例对AI在政府决策中应用边界的深远影响。

阅读全文 →

教程攻略

2026年5月8日·9 分钟

程序员鱼皮AI资源大全：从零基础到实战的完整学习路径

详解GitHub热门项目liyupi/ai-guide，涵盖Vibe Coding零基础教程、大模型玩法、AI编程工具（Cursor/Claude Code）、Prompt提示词、RAG/MCP/Agent等核心概念，13000+ Stars的中文AI学习资源一站式导航。

阅读全文 →

科技前沿

英国AI安全研究所评估GPT-5.5：网络安全能力比肩Claude Mythos

2026年5月8日·6 分钟

英国AI安全研究所评估GPT-5.5：网络安全能力比肩Claude Mythos

英国AI安全研究所（AISI）发布GPT-5.5网络安全能力评估报告，结果显示其漏洞发现能力与Claude Mythos相当，但GPT-5.5已公开可用。本文解读评估核心发现及其对AI安全治理的深远影响。

阅读全文 →

科技前沿

2026年5月8日·8 分钟

英国AISI评估报告：GPT-5.5网络安全能力与公开可用性引发治理关注

英国AI安全研究所(AISI)发布GPT-5.5网络安全能力评估报告，结果显示其漏洞发现能力与Claude Mythos相当，但因已向公众开放使用，引发AI安全治理新挑战。本文深入解读评估发现与行业影响。

阅读全文 →

英国AISI评估GPT-5.5网络安全能力：与Claude Mythos相当但已公开可用

前沿研究

2026年5月8日·7 分钟

英国AISI评估GPT-5.5网络安全能力：与Claude Mythos相当但已公开可用

英国AI安全研究所(AISI)发布GPT-5.5网络安全能力评估报告，结果显示其漏洞发现能力与Claude Mythos相当。关键区别在于GPT-5.5已面向公众开放，对AI安全治理提出更紧迫要求。

阅读全文 →

英国AISI评估报告：GPT-5.5网络安全能力与Claude Mythos相当

前沿研究

2026年5月7日·9 分钟

英国AISI评估报告：GPT-5.5网络安全能力与Claude Mythos相当

英国AI安全研究所(AISI)发布GPT-5.5网络安全能力评估报告，结果显示其漏洞发现能力与Claude Mythos相当，但关键区别在于GPT-5.5已向公众开放。本文解读评估核心发现及对AI安全治理的影响。

阅读全文 →