Qwen3.6本地部署实战:35B模型逆向LTE调制解调器击败Claude

Qwen 3.6 35B在逆向工程混淆代码的极限编码测试中击败Gemma 4和Claude Sonnet
一位开发者设计了三级递进编码挑战(网速监控、Doom火焰效果、LTE调制解调器逆向工程)来测试本地LLM的真实编码能力。在最难的第三关中,需要从数千行混淆JavaScript中提取登录逻辑和信号数据,Gemma 4因滑动窗口注意力架构导致长上下文遗忘而失败,而Qwen 3.6 35B凭借门控Delta-Net注意力机制和优秀的长上下文记忆能力成功完成任务,表现甚至优于Claude Sonnet。
本地LLM编码能力的真正试金石
谈到本地大语言模型的编码能力,多数评测停留在"写个贪吃蛇"或"做个TODO应用"的层面。但如果任务是逆向工程一个LTE调制解调器的Web门户,从数千行混淆JavaScript代码中提取登录逻辑和信号数据——这才是真正考验模型能力的战场。
一位开发者在连续三期视频的测试后,用Qwen 3.6 35B(A3B MoE架构)完成了这项挑战,而此前Gemma 4 27B和Qwen 3.5都在同一任务上折戟。更值得关注的是,这个本地模型的实现质量甚至优于Claude Sonnet的方案。
三级递进测试:从入门到逆向工程
这位开发者设计了三个递进式编码挑战来筛选本地LLM的真实能力:
第一关:网速监控应用 —— 这是"入场券"级别的测试,模型连这个都搞不定,后面就不用看了。
第二关:经典Doom火焰效果 —— 需要ANSI图形和复杂算法实现的终端应用。Qwen 3.5在这关就开始挣扎,但Gemma 4表现出色,轻松过关,这让测试者一度倾向于选择Gemma。
第三关:LTE调制解调器爬虫 —— 听起来简单,实际上是个噩梦。需要从调制解调器的Web门户中提取实时无线信号强度数据,而门户的逻辑隐藏在大量混淆压缩的JavaScript文件中。这些文件会迅速填满模型的上下文窗口,导致严重幻觉。
Web应用的JavaScript代码通常经过混淆(Obfuscation)和压缩(Minification)处理:变量名被替换为无意义的单字符或随机字符串,空白符和注释被删除,多个文件合并为单一文件,有时还会加入反调试陷阱。这既是出于保护知识产权的商业考量,也是减小文件体积、加快加载速度的工程实践。对LLM而言,混淆代码的控制流结构完全不可读,极易触发幻觉——模型会"猜测"函数语义而非真正理解逻辑链路。

正是在第三关,Gemma 4暴露了滑动窗口注意力架构的致命缺陷。滑动窗口注意力(Sliding Window Attention,SWA)是一种降低长上下文计算成本的近似方案:每个token只关注其前后固定窗口内的token,而非全局所有token,将标准Transformer O(n²)的复杂度降至O(n·w)。然而代价是模型无法直接"看到"窗口之外的信息。在处理数千行混淆JavaScript时,关键的登录逻辑可能分散在文件的不同位置,SWA架构会导致模型在关注新代码段时"遗忘"早先读入的关键上下文,从而产生逻辑断裂——这正是Gemma 4在第三关折戟的根本原因。测试者为此专门创建了记忆质量基准测试,对比了Gemma 4、Qwen 3.5和Qwen 3.6的MoE与Dense变体。结果显示,Qwen 3.6 35B A3B在长上下文记忆方面具有明显优势。
实战全过程:近4小时的本地推理马拉松
下载与美化混淆JavaScript文件
测试在一台36GB内存的MacBook上进行,模型以128K上下文大小和Q8 KV缓存加载。初始阶段,Qwen 3.6的表现就相当亮眼:预填充速度达到400 tokens/秒,生成速度接近40 tokens/秒。
这里需要理解LLM推理的两个截然不同阶段:**预填充(Prefill)**阶段处理所有输入token,为每个token并行计算KV缓存,属于计算密集型操作;**解码(Decode)**阶段逐token自回归生成输出,属于内存带宽密集型操作。Apple Silicon的统一内存架构在内存带宽上表现优异(利于解码),但在大批量矩阵运算上相比专用GPU仍有差距(制约预填充)——这一硬件特性在后续长上下文场景中将成为关键瓶颈。
模型首先被要求找到并下载调制解调器门户的所有客户端JavaScript文件。即便是这一步也并不简单——想象一下你自己要手动从一个陌生的Web门户中找出所有JS依赖。随后,测试者在新会话中让模型对这些混淆压缩的JS文件进行美化处理,使逻辑更易于理解。
js-beautify是一个广泛使用的开源工具,能够对压缩代码进行格式化还原:重新添加缩进、换行和空格,使代码结构重新可读,但无法还原被替换的变量名语义。美化后的代码虽然变量名仍是乱码,但控制流结构(if/else、函数调用链、循环嵌套)变得清晰可见,大幅降低了LLM的理解难度。

Qwen正确调用了js-beautify命令,成功处理了全部19个文件。测试者特意在新会话中执行美化操作,避免之前步骤的上下文污染——这种"人在回路"的策略对于本地模型的使用至关重要。
破解登录流程:长上下文理解的极限挑战
这是整个挑战中最残酷的部分——一个真实的长上下文理解测试。模型需要从美化后的JS文件中逐步拼凑出完整的登录逻辑。
Qwen 3.6的长上下文优势部分来自其门控Delta-Net注意力机制。Delta-Net是一种线性注意力变体,通过类似记忆写入/擦除的"Delta更新规则
相关推荐
产品体验Qoder vs Cursor实测对比:同样20美金谁更强?
实测对比Qoder和Cursor两款AI IDE,从Agent自主修复能力、人工沟通次数、架构决策等维度评测。Qoder仅需2次沟通完成任务,Cursor需8次。详细分析两者差异,帮你选择最适合的AI编程工具。
产品体验Cursor云Agent演示:打通软件开发全链路瓶颈
深度解析Cursor云Agent最新Demo,展示如何通过云端虚拟机、自动测试产物和全链路控制平面,系统性消除软件开发生命周期中的人类瓶颈,让Agent自主运行、人按需介入。
产品体验Cursor 3.0深度解析:多Agent并行、Design Mode与Best-of-N模型对比
Cursor 3.0正式发布,从AI辅助编程工具进化为Agent舰队指挥中心。本文详解多智能体并行、Design Mode可视化编辑、Best-of-N多模型择优等核心功能,解读AI编程新范式。