AI渗透测试实战:DeepSeek配合三大Agent挖漏洞效果对比

DeepSeek V4 Pro配合AI Agent工具在渗透测试中表现优异,限制少且成本低。
B站UP主实测对比Claude Code、Codex、DeepSeek TUI三款AI Agent工具配合DeepSeek V4 Pro进行渗透测试。结果显示DeepSeek TUI在无提示情况下唯一自主发现隐藏漏洞接口,DeepSeek模型因道德限制低、价格便宜、国内可用成为渗透测试首选。配合哥斯拉MCP可实现内网渗透自动化,但AI仍是能力放大器而非替代品。
引言:AI渗透测试的模型选择困境
当越来越多安全从业者尝试用AI辅助渗透测试时,第一个问题就是:该选哪个模型?GPT、Claude还是国产模型?

一位B站安全领域UP主"大白哥"通过直播实测,对比了三款主流AI Agent工具(Claude Code、Codex、DeepSeek TUI)配合DeepSeek V4 Pro模型进行渗透测试的效果,结果出人意料。
为什么选择DeepSeek做渗透测试
海外模型的"道德墙"问题
GPT和Claude在网络安全场景下有极高的道德限制。原因很简单——它们各自推出了专属的网络安全模型(如Claude的Mysteros、GPT的Sever系列),通用模型自然会严格限制安全相关操作。实测中,频繁尝试破解限制甚至会导致封号。
这背后涉及AI安全对齐(Safety Alignment)的核心技术。OpenAI和Anthropic等公司通过RLHF(基于人类反馈的强化学习)和Constitutional AI等方法,在模型训练阶段就植入了严格的道德边界。这些限制在网络安全场景下表现尤为明显:模型会拒绝生成漏洞利用代码、拒绝协助渗透测试操作,甚至在检测到用户反复尝试绕过限制时触发账号风控机制。专属安全模型(如Mysteros和Sever系列)则是在受控授权环境下有选择地放开部分限制,但通用版本始终保持高度审慎的策略。
国产模型的优势
DeepSeek V4 Pro被选中的理由有三:
- 国内可直接使用,无需特殊网络环境
- 价格便宜,整场测试消耗不到几块钱
- 道德限制相对宽松,不会动辄拒绝安全测试请求
相比之下,Kimi和MiniMax等国产模型在安全场景下的道德感仍然偏高,容易拒绝回答甚至封号。
三大AI Agent工具渗透测试实测对比
工具配置与Yolo模式
本次测试使用的三款Agent工具:
- Claude Code:生态最完善,最先推出,支持接入国产模型
- Codex:OpenAI出品,默认只支持GPT系列,需通过CDX反向代理工具接入DeepSeek
- DeepSeek TUI:专门针对DeepSeek V4 Pro优化的命令行Agent
三款工具均开启"Yolo模式"(全自动执行,无需人工确认),使用完全相同的提示词,不加载任何Skills,纯粹测试模型与Agent的适配性。
关于Yolo模式的技术细节: 在常规模式下,Agent每执行一个可能产生副作用的操作(如执行系统命令、写入文件、发送网络请求)都会暂停并请求用户确认。Yolo模式则跳过所有确认步骤,让Agent完全自主决策和执行。这种模式在渗透测试中尤为重要,因为一次完整的漏洞探测可能涉及数十甚至上百次命令执行,频繁的人工确认会严重打断AI的推理链条。当然,Yolo模式也意味着更高的风险——Agent可能执行破坏性操作,因此通常只在隔离的测试环境中使用。
关于CDX反向代理: CDX的核心功能是解决不同AI服务商之间的API兼容性问题。Codex默认只支持调用GPT系列模型的API,其请求格式、认证方式和响应结构都遵循OpenAI的规范。DeepSeek虽然兼容OpenAI API格式,但在某些细节(如模型名称、特殊参数、流式响应格式)上存在差异。CDX在中间层完成请求拦截、格式转换和响应适配,使Codex"以为"自己在调用GPT模型,实际上请求被转发到了DeepSeek的API端点。这种代理模式类似于One-API、New-API等开源项目的设计思路。
第一轮:自动发现隐藏漏洞
测试环境是一个带有隐藏接口(upload.jsp)的Java站点,存在任意文件上传漏洞。初始提示词仅为:"帮我检查是否存在漏洞"。
结果令人意外:
- Claude Code:跑得最快,但只发现了常规漏洞,未触及隐藏接口
- Codex:同样未发现upload.jsp,停留在XSS等常规检测
- DeepSeek TUI:主动进行路径遍历,成功发现upload.jsp,并直接上传JSP WebShell验证漏洞
DeepSeek TUI的思考链显示,它尝试了备份文件下载、路径遍历、分号截断绕过等多种手法,最终通过枚举JSP文件发现了隐藏接口。整个过程仅消耗0.15元人民币。
第二轮:提示词引导后的表现
给Claude Code和Codex补充提示"尝试目录遍历发现其他JSP文件是否有漏洞"后,两者均能发现upload.jsp并确认漏洞存在。Codex甚至自动尝试了WAF绕过和免杀WebShell上传。
第三轮:上传指定WebShell
指定上传哥斯拉WebShell(log.jsp),三款工具均成功完成:
- 自动读取本地WebShell文件
- 构造上传请求
- 验证上传成功
- 分析加密器和连接参数
关于JSP WebShell与哥斯拉工具链: WebShell是一种部署在Web服务器上的后门程序,攻击者通过浏览器或专用客户端与之交互,实现对服务器的远程控制。JSP WebShell专门针对Java Web应用服务器(如Tomcat、JBoss),利用Java的Runtime类或ProcessBuilder执行系统命令。哥斯拉(Godzilla)是国内安全研究者开发的一款WebShell管理工具,支持多种加密通信协议(如AES、XOR),能有效绑过WAF(Web应用防火墙)和流量检测设备。其独特之处在于通信流量经过多层加密,使得传统的基于特征匹配的安全设备难以识别恶意通信内容。
最终通过哥斯拉客户端验证,三个Shell均可正常连接。不过在密钥分析上,三款工具都出现了错误,需要人工纠正。
内网渗透:哥斯拉MCP工具链的威力
自动化内网信息收集
拿到WebShell后,通过加载哥斯拉MCP(二开版本专属功能),Claude Code可以直接调用哥斯拉进行内网渗透:
- 自动识别操作系统为Windows 7
- 执行系统命令收集网络信息
- 遍历文件系统寻找敏感配置
- 发现Tomcat版本信息、用户凭证
- 检测防火墙状态和开放端口
- 识别出可能存在MS17-010漏洞
MCP协议在安全工具中的应用原理: MCP(Model Context Protocol)是Anthropic提出的一种开放协议,旨在标准化AI模型与外部工具之间的交互方式。在MCP架构中,工具被封装为"服务器",AI Agent作为"客户端"通过标准化的JSON-RPC协议调用工具功能。对于安全工具而言,MCP的意义在于将Nmap、Burp Suite、哥斯拉、Fscan等传统需要人工操作的工具转化为AI可编程调用的接口。AI Agent可以根据当前渗透进度自主决定调用哪个工具、传入什么参数,并解析返回结果来规划下一步动作。这种"工具使用"能力是当前AI Agent区别于简单聊天机器人的核心特征。
整个过程无需人工干预,AI自动从多个维度收集信息,包括注册表、配置文件、网络端口等,相当于自动化完成了传统渗透中最耗时的"翻文件"环节。
关于MS17-010漏洞: MS17-010是微软在2017年3月发布的安全补丁所修复的一组SMB(Server Message Block)协议漏洞,其中最著名的利用工具是NSA泄露的EternalBlue(永恒之蓝)。该漏洞影响Windows XP到Windows Server 2008 R2的几乎所有版本,攻击者可通过445端口远程执行任意代码,无需任何认证。2017年5月爆发的WannaCry勒索病毒正是利用此漏洞进行大规模传播。时至今日,在内网环境中仍有大量未打补丁的Windows 7/Server 2008系统存在此漏洞,因此它仍是内网渗透中最常被检测和利用的高危漏洞之一。AI在信息收集阶段自动识别出该漏洞的存在,体现了其将零散信息(操作系统版本+开放端口+补丁状态)综合研判的能力。
扩展思路
如果进一步配合Fscan MCP等工具,理论上可以实现内网资产发现、漏洞扫描的全自动化流程。Fscan是一款国内广泛使用的内网综合扫描工具,支持主机存活探测、端口扫描、服务识别、漏洞检测等功能。将其封装为MCP服务后,AI Agent可以在发现一台主机后自动扩展攻击面,对整个内网网段进行横向探测,形成从单点突破到全网渗透的自动化攻击链。
实战建议与模型选择总结
模型选择策略
| 场景 | 推荐模型 | 原因 |
|---|---|---|
| 渗透测试 | DeepSeek V4 Pro | 限制少、成本低、推理深度强 |
| 代码审计 | GPT 5.5 | 代码理解能力强、上下文窗口大 |
| 代码开发 | GPT/Claude | 生态完善、工具链成熟 |
Agent工具评价
- Claude Code:生态最完善,MCP支持最好,适合复杂工作流。其优势在于对MCP协议的原生支持最为完整,可以同时加载多个工具服务器,实现跨工具的复杂编排。
- Codex:速度快但需要额外配置才能接入国产模型。其沙箱执行环境提供了较好的安全隔离,适合需要频繁执行代码的场景。
- DeepSeek TUI:与DeepSeek模型适配度最高,推理深度更强。由于是专门为DeepSeek优化的客户端,在提示词模板、上下文管理和工具调用格式上都做了针对性适配,能最大程度发挥模型的推理能力。
关键认知
- AI目前无法100%替代人工,但是显著的"能力放大器"——它将渗透测试的门槛从"需要记住数百个工具命令和技巧"降低到"能准确描述目标和方向"
- 提示词的精确度直接影响结果——越具体的引导,发现漏洞越快。这与传统渗透测试中"信息收集决定攻击面"的原则一脉相承
- 简单明显的漏洞AI可以一次发现,隐蔽漏洞需要多轮对话引导
- 实战中建议结合自身判断给出方向性提示,而非完全依赖AI盲扫
- Agent的拒绝行为主要来自模型端而非工具端,选对模型是关键——同一个Agent工具接入不同模型,表现可能天差地别
核心要点
- DeepSeek V4 Pro因道德限制低、价格便宜、国内可用,成为AI渗透测试的首选模型
- 三款Agent工具对比中,DeepSeek TUI在无提示情况下唯一自主发现隐藏漏洞接口
- 通过Codex接入DeepSeek需要CDX反向代理工具进行请求转发和格式转换
- 配合哥斯拉MCP可实现内网信息收集全自动化,大幅提升后渗透效率
- AI渗透的核心价值是能力放大器而非替代品,精确的提示词引导仍是关键
相关推荐
教程攻略Cursor+Codex双IDE协同:开源项目二开实战方法论
基于实战经验总结的开源项目二次开发完整方法论,详解Cursor+Codex双IDE协同工作流,涵盖二开七环节、MVP验证、AI读源码技巧,帮助开发者三天跑通项目、两周完成业务集成。
教程攻略Cursor多Agent实战:50分钟搭建Next.js全栈博客
使用Cursor IDE多Agent协作模式,50分钟内从零搭建全栈博客。涵盖Next.js、Clerk认证、Supabase数据库集成,详解4个AI Agent分阶段开发流程与关键避坑经验。
教程攻略从零搭建AI软件工厂:Cursor工程师的多Agent协作实战经验
Cursor工程师Eric分享AI软件工厂构建实战:从自动化六层级、护栏设计、并行Agent管理到规模化扩展,详解如何用多Agent协作实现7×24小时高效软件开发。