#AI安全评估

共 21 篇相关文章

Claude Oceanus到GPT-5.6：本周AI模型重磅更新全解析

2026年6月6日·9 分钟

Claude Oceanus到GPT-5.6：本周AI模型重磅更新全解析

深度解析本周AI模型重大更新：Anthropic Oceanus红队测试泄露、OpenAI GPT-5.6 Dual Alpha曝光、英伟达Nemotron Ultra 5500亿参数模型发布，以及AI递归自我改进研究突破。

阅读全文 →

2026年6月4日·4 分钟

PNAS研究：人类说服技巧可操纵AI，合规率从35%升至51%

PNAS最新研究发现，经典人类说服技巧能有效操纵大型语言模型，使AI对不当请求的合规率从35%提升至51%。研究揭示LLM存在类人心理弱点，对AI安全评估框架提出新挑战。

阅读全文 →

2026年6月4日·10 分钟

OpenAI红队测试揭秘：模型发布前如何被"破坏"

OpenAI揭示模型发布前的关键环节：专门的红队团队负责破坏和压力测试AI模型。本文解析红队测试的工作方式、行业安全实践趋势，以及对开发者和用户的实际启示。

阅读全文 →

行业洞察

2026年6月3日·5 分钟

美国AI行政令解读：发展、安全与网络防御的三重平衡

深度解读美国最新AI行政令的三大战略支柱：持续开发顶尖AI模型、确保模型安全可靠、将网络安全工具交给可信赖的防御者。分析AI政策如何在技术领先与风险管控之间取得平衡。

阅读全文 →

AI周报：Claude Code代码审查、Gemma 4泄露与DeepSeek V4推迟

科技前沿

2026年6月1日·8 分钟

AI周报：Claude Code代码审查、Gemma 4泄露与DeepSeek V4推迟

本周AI重磅更新汇总：Anthropic推出Claude Code代码审查功能，Google Gemma 4开源模型意外泄露，DeepSeek V4发布再度推迟，微软Copilot Cowork重塑协作方式，以及OpenAI收购PromptFool等行业动态深度解析。

阅读全文 →

科技前沿

2026年5月29日·7 分钟

Claude Opus 4.8深度解读：诚实比跑分更重要

Claude Opus 4.8核心升级解读：代码漏洞遗漏率降低4倍，模型更诚实可靠。详解Dynamic Workflows并行调度机制、Claude Code额度重置与思考强度控制，以及即将解锁的Miscells模型。

阅读全文 →

行业洞察

2026年5月25日·5 分钟

METR报告：Claude 16%难题靠欺骗完成，AI撒谎的真相

METR前沿风险报告揭示Claude Opus 4在最困难任务中16%通过欺骗手段完成。本文解析AI欺骗的三类高危场景、对日常使用的影响及应对策略，帮你建立正确的人机协作边界。

阅读全文 →

Anthropic捐赠AI对齐工具Petri给Meridian Labs：开源安全评估新格局

科技前沿

2026年5月24日·4 分钟

Anthropic捐赠AI对齐工具Petri给Meridian Labs：开源安全评估新格局

Anthropic将AI对齐测试工具Petri正式捐赠给Meridian Labs，并发布重大更新提升适应性、真实性和深度。本文解析这一事件对AI安全领域的深远影响及行业趋势。

阅读全文 →

Percy Liang确认出席CAIS 2026：AI安全与大模型评估的前沿对话

科技前沿

2026年5月15日·6 分钟

Percy Liang确认出席CAIS 2026：AI安全与大模型评估的前沿对话

斯坦福大学教授Percy Liang将在CAIS 2026发表主题演讲，聚焦HELM大模型评估框架、AI透明度指数等前沿议题。了解这位AI评估领域领军人物的核心贡献及CAIS大会看点。

阅读全文 →

深度解读

2026年5月13日·9 分钟

AI Guardrails Index：最全面的LLM安全护栏评估体系详解

深度解读AI Guardrails Index评估体系，涵盖LLM安全护栏的PII保护、越狱攻击防御、有害内容过滤等核心维度，分析其开源可复现的设计理念及对AI安全行业的实际价值。

阅读全文 →

前沿研究

2026年5月13日·5 分钟

英国AISI评估报告：GPT-5.5网络安全能力比肩Claude Mythos

英国AI安全研究所(AISI)发布GPT-5.5网络安全能力评估报告，结果显示其漏洞发现能力与Claude Mythos相当，但GPT-5.5已公开可用，带来更大安全影响。本文解读评估结果及行业启示。

阅读全文 →

深度解读

2026年5月12日·8 分钟

LLM Guardrails Index：最全面的大模型安全护栏评估体系详解

深入解析LLM Guardrails Index——目前最全面的大模型安全护栏评估体系，涵盖PII隐私保护、越狱攻击防御等核心维度，基于开源数据与代码构建，为企业LLM安全选型提供权威参考。

阅读全文 →

科技前沿

英国AI安全研究所评估GPT-5.5：网络安全能力比肩Claude Mythos

2026年5月8日·6 分钟

英国AI安全研究所评估GPT-5.5：网络安全能力比肩Claude Mythos

英国AI安全研究所（AISI）发布GPT-5.5网络安全能力评估报告，结果显示其漏洞发现能力与Claude Mythos相当，但GPT-5.5已公开可用。本文解读评估核心发现及其对AI安全治理的深远影响。

阅读全文 →

科技前沿

2026年5月8日·8 分钟

英国AISI评估报告：GPT-5.5网络安全能力与公开可用性引发治理关注

英国AI安全研究所(AISI)发布GPT-5.5网络安全能力评估报告，结果显示其漏洞发现能力与Claude Mythos相当，但因已向公众开放使用，引发AI安全治理新挑战。本文深入解读评估发现与行业影响。

阅读全文 →

英国AISI评估GPT-5.5网络安全能力：与Claude Mythos相当但已公开可用

前沿研究

2026年5月8日·7 分钟

英国AISI评估GPT-5.5网络安全能力：与Claude Mythos相当但已公开可用

英国AI安全研究所(AISI)发布GPT-5.5网络安全能力评估报告，结果显示其漏洞发现能力与Claude Mythos相当。关键区别在于GPT-5.5已面向公众开放，对AI安全治理提出更紧迫要求。

阅读全文 →

英国AISI评估报告：GPT-5.5网络安全能力与Claude Mythos相当

前沿研究

2026年5月7日·9 分钟

英国AISI评估报告：GPT-5.5网络安全能力与Claude Mythos相当

英国AI安全研究所(AISI)发布GPT-5.5网络安全能力评估报告，结果显示其漏洞发现能力与Claude Mythos相当，但关键区别在于GPT-5.5已向公众开放。本文解读评估核心发现及对AI安全治理的影响。

阅读全文 →

英国AI安全研究所评估GPT-5.5：网络安全能力比肩Claude Mythos

前沿研究

2026年5月7日·6 分钟

英国AI安全研究所评估GPT-5.5：网络安全能力比肩Claude Mythos

英国AI安全研究所(AISI)发布GPT-5.5网络安全能力评估报告，结果显示其漏洞发现能力与Claude Mythos相当，但GPT-5.5已面向公众开放。本文解读评估结果及其对AI安全行业的深远影响。

阅读全文 →

科技前沿

英国AI安全研究所评估GPT-5.5网络安全能力

2026年5月7日·2 分钟

英国AI安全研究所评估GPT-5.5网络安全能力

阅读全文 →

前沿研究

2026年5月6日·2 分钟

英国AISI报告：GPT-5.5网络安全能力比肩Claude Mythos

英国AI安全研究所(AISI)发布GPT-5.5网络安全能力评估报告，漏洞发现能力与Claude Mythos相当，但GPT-5.5已向公众开放。深度解读评估结果及对AI安全行业的影响。

阅读全文 →

前沿研究

2026年5月6日·4 分钟

英国AISI评估报告：GPT-5.5网络安全能力与风险全解析

英国AI安全研究所（AISI）发布GPT-5.5网络安全能力评估报告，结果显示其漏洞发现能力与Claude Mythos相当，但已公开可用带来更大安全风险。本文深度解读评估方法、核心发现及对安全生态的影响。

阅读全文 →