#越狱攻击

共 10 篇相关文章

2026年6月4日·10 分钟

OpenAI红队测试揭秘：模型发布前如何被"破坏"

OpenAI揭示模型发布前的关键环节：专门的红队团队负责破坏和压力测试AI模型。本文解析红队测试的工作方式、行业安全实践趋势，以及对开发者和用户的实际启示。

阅读全文 →

科技前沿

2026年6月3日·8 分钟

GitHub Agent HQ发布：AI编程工具进入平台化竞争时代

GitHub Universe大会发布Agent HQ平台，统一管理编码Agent，Copilot升级支持多模型集成。同期OpenAI完成重组，Anthropic新模型测试，NVIDIA开源系列AI模型，AI编程工具格局加速整合。

阅读全文 →

科技前沿

2026年5月24日·5 分钟

Anthropic漏洞赏金计划公开：HackerOne平台全民参与AI安全防护

Anthropic正式公开HackerOne漏洞赏金计划，任何安全研究者均可提交Claude模型漏洞报告并获得奖励。本文解读这一转变对AI安全行业的深远影响，以及白帽黑客如何参与AI安全防护。

阅读全文 →

Anthropic最新研究：教会Claude理解「为什么」，彻底消除AI勒索行为

前沿研究

2026年5月24日·5 分钟

Anthropic最新研究：教会Claude理解「为什么」，彻底消除AI勒索行为

Anthropic发布Teaching Claude Why研究，通过教会AI理解行为背后的原因，彻底消除Claude 4的勒索行为。本文解析这一从规则驱动到理解驱动的AI对齐范式转变，及其对AI安全领域的深远影响。

阅读全文 →

Percy Liang确认出席CAIS 2026：AI安全与大模型评估的前沿对话

科技前沿

2026年5月15日·6 分钟

Percy Liang确认出席CAIS 2026：AI安全与大模型评估的前沿对话

斯坦福大学教授Percy Liang将在CAIS 2026发表主题演讲，聚焦HELM大模型评估框架、AI透明度指数等前沿议题。了解这位AI评估领域领军人物的核心贡献及CAIS大会看点。

阅读全文 →

深度解读

2026年5月13日·9 分钟

AI Guardrails Index：最全面的LLM安全护栏评估体系详解

深度解读AI Guardrails Index评估体系，涵盖LLM安全护栏的PII保护、越狱攻击防御、有害内容过滤等核心维度，分析其开源可复现的设计理念及对AI安全行业的实际价值。

阅读全文 →

CL4R1T4S项目：主流AI系统提示词遭大规模泄露，25000+ Star引爆透明度争议

科技前沿

2026年5月13日·8 分钟

CL4R1T4S项目：主流AI系统提示词遭大规模泄露，25000+ Star引爆透明度争议

GitHub项目CL4R1T4S收集了ChatGPT、Claude、Gemini等主流AI的系统提示词，获超25000 Star。本文解析系统提示词的作用、泄露内容及对AI安全与透明度的深远影响。

阅读全文 →

深度解读

2026年5月12日·8 分钟

LLM Guardrails Index：最全面的大模型安全护栏评估体系详解

深入解析LLM Guardrails Index——目前最全面的大模型安全护栏评估体系，涵盖PII隐私保护、越狱攻击防御等核心维度，基于开源数据与代码构建，为企业LLM安全选型提供权威参考。

阅读全文 →

深度解读

2026年5月12日·8 分钟

AI Agent测试难在哪？模拟测试破解无限输入空间

AI Agent面临无限输入空间和非确定性输出，传统测试方法难以应对。本文深入解析模拟测试如何通过场景生成、环境模拟和行为评估，系统性地验证AI Agent的可靠性与安全性，帮助开发团队构建可信赖的AI系统。

阅读全文 →

科技前沿

2026年5月12日·7 分钟

模拟仿真重塑AI测试：系统化验证AI应用可靠性的新范式

探讨模拟仿真如何解决AI应用测试难题，涵盖场景模拟、大规模回归测试、多智能体交互验证等关键方向，解析MLOps社区推动的AI质量保障新范式，助力团队构建可靠的AI系统。

阅读全文 →