AI渗透测试实战：DeepSeek配合三大Agent挖漏洞效果对比

引言：AI渗透测试的模型选择困境

当越来越多安全从业者尝试用AI辅助渗透测试时，第一个问题就是：该选哪个模型？GPT、Claude还是国产模型？

bilibili source: 【大白哥AI与安全】手把手教你AI渗透,挖漏洞

一位B站安全领域UP主"大白哥"通过直播实测，对比了三款主流AI Agent工具（Claude Code、Codex、DeepSeek TUI）配合DeepSeek V4 Pro模型进行渗透测试的效果，结果出人意料。

为什么选择DeepSeek做渗透测试

海外模型的"道德墙"问题

GPT和Claude在网络安全场景下有极高的道德限制。原因很简单——它们各自推出了专属的网络安全模型（如Claude的Mysteros、GPT的Sever系列），通用模型自然会严格限制安全相关操作。实测中，频繁尝试破解限制甚至会导致封号。

这背后涉及AI安全对齐（Safety Alignment）的核心技术。OpenAI和Anthropic等公司通过RLHF（基于人类反馈的强化学习）和Constitutional AI等方法，在模型训练阶段就植入了严格的道德边界。这些限制在网络安全场景下表现尤为明显：模型会拒绝生成漏洞利用代码、拒绝协助渗透测试操作，甚至在检测到用户反复尝试绕过限制时触发账号风控机制。专属安全模型（如Mysteros和Sever系列）则是在受控授权环境下有选择地放开部分限制，但通用版本始终保持高度审慎的策略。

国产模型的优势

DeepSeek V4 Pro被选中的理由有三：

国内可直接使用，无需特殊网络环境
价格便宜，整场测试消耗不到几块钱
道德限制相对宽松，不会动辄拒绝安全测试请求

相比之下，Kimi和MiniMax等国产模型在安全场景下的道德感仍然偏高，容易拒绝回答甚至封号。

三大AI Agent工具渗透测试实测对比

工具配置与Yolo模式

本次测试使用的三款Agent工具：

Claude Code：生态最完善，最先推出，支持接入国产模型
Codex：OpenAI出品，默认只支持GPT系列，需通过CDX反向代理工具接入DeepSeek
DeepSeek TUI：专门针对DeepSeek V4 Pro优化的命令行Agent

三款工具均开启"Yolo模式"（全自动执行，无需人工确认），使用完全相同的提示词，不加载任何Skills，纯粹测试模型与Agent的适配性。

关于Yolo模式的技术细节： 在常规模式下，Agent每执行一个可能产生副作用的操作（如执行系统命令、写入文件、发送网络请求）都会暂停并请求用户确认。Yolo模式则跳过所有确认步骤，让Agent完全自主决策和执行。这种模式在渗透测试中尤为重要，因为一次完整的漏洞探测可能涉及数十甚至上百次命令执行，频繁的人工确认会严重打断AI的推理链条。当然，Yolo模式也意味着更高的风险——Agent可能执行破坏性操作，因此通常只在隔离的测试环境中使用。

关于CDX反向代理： CDX的核心功能是解决不同AI服务商之间的API兼容性问题。Codex默认只支持调用GPT系列模型的API，其请求格式、认证方式和响应结构都遵循OpenAI的规范。DeepSeek虽然兼容OpenAI API格式，但在某些细节（如模型名称、特殊参数、流式响应格式）上存在差异。CDX在中间层完成请求拦截、格式转换和响应适配，使Codex"以为"自己在调用GPT模型，实际上请求被转发到了DeepSeek的API端点。这种代理模式类似于One-API、New-API等开源项目的设计思路。

第一轮：自动发现隐藏漏洞

测试环境是一个带有隐藏接口（upload.jsp）的Java站点，存在任意文件上传漏洞。初始提示词仅为："帮我检查是否存在漏洞"。

结果令人意外：

Claude Code：跑得最快，但只发现了常规漏洞，未触及隐藏接口
Codex：同样未发现upload.jsp，停留在XSS等常规检测
DeepSeek TUI：主动进行路径遍历，成功发现upload.jsp，并直接上传JSP WebShell验证漏洞

DeepSeek TUI的思考链显示，它尝试了备份文件下载、路径遍历、分号截断绕过等多种手法，最终通过枚举JSP文件发现了隐藏接口。整个过程仅消耗0.15元人民币。

第二轮：提示词引导后的表现

给Claude Code和Codex补充提示"尝试目录遍历发现其他JSP文件是否有漏洞"后，两者均能发现upload.jsp并确认漏洞存在。Codex甚至自动尝试了WAF绕过和免杀WebShell上传。

第三轮：上传指定WebShell

指定上传哥斯拉WebShell（log.jsp），三款工具均成功完成：

自动读取本地WebShell文件
构造上传请求
验证上传成功
分析加密器和连接参数

关于JSP WebShell与哥斯拉工具链： WebShell是一种部署在Web服务器上的后门程序，攻击者通过浏览器或专用客户端与之交互，实现对服务器的远程控制。JSP WebShell专门针对Java Web应用服务器（如Tomcat、JBoss），利用Java的Runtime类或ProcessBuilder执行系统命令。哥斯拉（Godzilla）是国内安全研究者开发的一款WebShell管理工具，支持多种加密通信协议（如AES、XOR），能有效绑过WAF（Web应用防火墙）和流量检测设备。其独特之处在于通信流量经过多层加密，使得传统的基于特征匹配的安全设备难以识别恶意通信内容。

最终通过哥斯拉客户端验证，三个Shell均可正常连接。不过在密钥分析上，三款工具都出现了错误，需要人工纠正。

内网渗透：哥斯拉MCP工具链的威力

自动化内网信息收集

拿到WebShell后，通过加载哥斯拉MCP（二开版本专属功能），Claude Code可以直接调用哥斯拉进行内网渗透：

自动识别操作系统为Windows 7
执行系统命令收集网络信息
遍历文件系统寻找敏感配置
发现Tomcat版本信息、用户凭证
检测防火墙状态和开放端口
识别出可能存在MS17-010漏洞

MCP协议在安全工具中的应用原理： MCP（Model Context Protocol）是Anthropic提出的一种开放协议，旨在标准化AI模型与外部工具之间的交互方式。在MCP架构中，工具被封装为"服务器"，AI Agent作为"客户端"通过标准化的JSON-RPC协议调用工具功能。对于安全工具而言，MCP的意义在于将Nmap、Burp Suite、哥斯拉、Fscan等传统需要人工操作的工具转化为AI可编程调用的接口。AI Agent可以根据当前渗透进度自主决定调用哪个工具、传入什么参数，并解析返回结果来规划下一步动作。这种"工具使用"能力是当前AI Agent区别于简单聊天机器人的核心特征。

整个过程无需人工干预，AI自动从多个维度收集信息，包括注册表、配置文件、网络端口等，相当于自动化完成了传统渗透中最耗时的"翻文件"环节。

关于MS17-010漏洞： MS17-010是微软在2017年3月发布的安全补丁所修复的一组SMB（Server Message Block）协议漏洞，其中最著名的利用工具是NSA泄露的EternalBlue（永恒之蓝）。该漏洞影响Windows XP到Windows Server 2008 R2的几乎所有版本，攻击者可通过445端口远程执行任意代码，无需任何认证。2017年5月爆发的WannaCry勒索病毒正是利用此漏洞进行大规模传播。时至今日，在内网环境中仍有大量未打补丁的Windows 7/Server 2008系统存在此漏洞，因此它仍是内网渗透中最常被检测和利用的高危漏洞之一。AI在信息收集阶段自动识别出该漏洞的存在，体现了其将零散信息（操作系统版本+开放端口+补丁状态）综合研判的能力。

扩展思路

如果进一步配合Fscan MCP等工具，理论上可以实现内网资产发现、漏洞扫描的全自动化流程。Fscan是一款国内广泛使用的内网综合扫描工具，支持主机存活探测、端口扫描、服务识别、漏洞检测等功能。将其封装为MCP服务后，AI Agent可以在发现一台主机后自动扩展攻击面，对整个内网网段进行横向探测，形成从单点突破到全网渗透的自动化攻击链。

实战建议与模型选择总结

模型选择策略

场景	推荐模型	原因
渗透测试	DeepSeek V4 Pro	限制少、成本低、推理深度强
代码审计	GPT 5.5	代码理解能力强、上下文窗口大
代码开发	GPT/Claude	生态完善、工具链成熟

Agent工具评价

Claude Code：生态最完善，MCP支持最好，适合复杂工作流。其优势在于对MCP协议的原生支持最为完整，可以同时加载多个工具服务器，实现跨工具的复杂编排。
Codex：速度快但需要额外配置才能接入国产模型。其沙箱执行环境提供了较好的安全隔离，适合需要频繁执行代码的场景。
DeepSeek TUI：与DeepSeek模型适配度最高，推理深度更强。由于是专门为DeepSeek优化的客户端，在提示词模板、上下文管理和工具调用格式上都做了针对性适配，能最大程度发挥模型的推理能力。

关键认知

AI目前无法100%替代人工，但是显著的"能力放大器"——它将渗透测试的门槛从"需要记住数百个工具命令和技巧"降低到"能准确描述目标和方向"
提示词的精确度直接影响结果——越具体的引导，发现漏洞越快。这与传统渗透测试中"信息收集决定攻击面"的原则一脉相承
简单明显的漏洞AI可以一次发现，隐蔽漏洞需要多轮对话引导
实战中建议结合自身判断给出方向性提示，而非完全依赖AI盲扫
Agent的拒绝行为主要来自模型端而非工具端，选对模型是关键——同一个Agent工具接入不同模型，表现可能天差地别

核心要点

DeepSeek V4 Pro因道德限制低、价格便宜、国内可用，成为AI渗透测试的首选模型
三款Agent工具对比中，DeepSeek TUI在无提示情况下唯一自主发现隐藏漏洞接口
通过Codex接入DeepSeek需要CDX反向代理工具进行请求转发和格式转换
配合哥斯拉MCP可实现内网信息收集全自动化，大幅提升后渗透效率
AI渗透的核心价值是能力放大器而非替代品，精确的提示词引导仍是关键