共 7 篇相关文章

海外安全博主对DeepSeek进行系统性越狱测试,通过直接请求、变换措辞、不同提示策略等多种手段尝试突破安全防线。测试结果显示DeepSeek安全机制具备意图识别、一致性拦截和上下文感知能力,在防护与可用性之间取得良好平衡。

OpenAI发布公开声明阐述其AI政策立场与倡导方式。本文深入分析OpenAI选择透明化的核心逻辑、科技公司政策倡导面临的争议与挑战,以及对AI行业监管生态的深远启示。

伊利诺伊州通过前沿AI安全法案SB 315,涵盖透明度、审计和事件报告三大核心要求。OpenAI公开背书支持,称其采取了深思熟虑的方法。美国州级AI立法正构建事实上的国家监管框架。

Claude Mythos 5模型短暂现身Anthropic API引发发布猜测,OpenAI与美国政府就股权转让及公共财富基金进行超一年谈判,Hermes Agent V0.16.0发布支持中文桌面应用。
科技前沿谷歌招聘流程引入Gemini AI助手考核应聘者AI应用能力,OpenAI推出GPT-5.5 Cyber专攻关键基础设施防御,Anthropic估值逼近万亿美元。Mozilla用AI两月修复271个Firefox漏洞,LanVM 3B开源模型精确控制超越闭源巨头,AMD发布MI350P显卡。
深度解读深入解析LLM Guardrails Index——目前最全面的大模型安全护栏评估体系,涵盖PII隐私保护、越狱攻击防御等核心维度,基于开源数据与代码构建,为企业LLM安全选型提供权威参考。