最近AI编程圈发生了一件挺有意思的事——Cursor和Windsurf这两家最火的AI编程工具,几乎同时推出了各自的自研编程大模型。Cursor那边叫Composite,Windsurf这边叫SWE 1.5。你知道这意味着什么吗?这两家以前都是靠调用别人的模型,比如Claude、GPT-4来干活的,现在终于开始自己造引擎了。"},
{"speaker": "guest", "text": "对,这个转变其实战略意义特别大。你想啊,之前这些工具厂商本质上就是个"中间商",负责做IDE集成、上下文管理这些事,核心的AI能力完全捏在上游模型供应商手里。之前Windsurf就吃过亏,Claude一度停供,直接影响业务。现在自研模型,就是要把命运握在自己手里。"},
{"speaker": "host", "text": "嗯,而且有开发者推测,这两家的自研模型可能都是基于国内的开源大模型微调出来的,比如通义千问或者智谱的GLM系列。"},
{"speaker": "guest", "text": "这个路径其实业界非常普遍。开源基座模型提供通用的语言理解能力,厂商再拿大量GitHub代码、Stack Overflow问答这些编程语料去做微调和强化学习,就能快速得到一个编程专用模型。比从零训练省太多算力成本了。"},
{"speaker": "host", "text": "好,那模型都出来了,到底谁更强呢?我们做了三轮递进式实测,从简单到复杂,一轮一轮来聊。第一轮是个经典的入门任务——用一句提示词生成一个HTML贪吃蛇游戏。"},
{"speaker": "guest", "text": "这轮其实两个模型速度都挺快的,SWE 1.5稍微快一点点,差距不大。但关键区别在生成结果上。Cursor Composite生成的贪吃蛇呢,能跑,基本功能都有,但就是很朴素,只有最基础的游戏逻辑。而SWE 1.5的版本就丰富多了——它不光游戏本身运行流畅,还主动加了难度选择功能和音效。"},
{"speaker": "host", "text": "这个"主动加功能"挺有意思的。你说"贪吃蛇游戏",它自己就联想到应该有难度设置,这说明它对需求的理解更深一层。"},
{"speaker": "guest", "text": "没错,这其实反映的是模型对真实用户需求的把握能力。一个好的编程模型不应该只是机械地执行指令,而是能补充合理的功能细节。第一轮SWE 1.5胜出,没什么悬念。"},
{"speaker": "host", "text": "第二轮我们加大难度,让它们生成一个类似京东商城的静态页面,包含搜索栏、商品列表、分类导航这些电商核心元素。这轮差距就开始拉大了。"},
{"speaker": "guest", "text": "对,而且差距不光是视觉效果上的。先说一个很关键的工程化问题——Cursor Composite生成的项目,你没法用标准的npm install加npm run dev来启动,得按它README里的特殊说明用node直接执行。而SWE 1.5生成的是标准的Vue项目,常规命令就能跑起来。"},
{"speaker": "host", "text": "这个对开发者来说太重要了。npm install和npm run dev就是Node.js生态里最标准的启动流程,如果AI生成的项目连这个都不符合,后续维护成本会很高。"},
{"speaker": "guest", "text": "你看页面效果差距也很明显。Composite的页面说实话有点像十年前的网页,比较简陋。SWE 1.5的就现代化多了——有京东标志性的顶部导航栏,还加了秒杀专区这种特色模块,商品列表的布局和样式都更精致,整体更接近真实电商网站的感觉。"},
{"speaker": "host", "text": "好,前两轮都是前端任务,SWE 1.5两连胜。第三轮我们来个真正有挑战性的——构建一个前后端完整的登录注册系统,要有真实的后端服务和数据库交互。我们提前给两个模型各准备了一个空数据库,让它们自己搞定数据库表设计、后端逻辑和前端页面。"},
{"speaker": "guest", "text": "这轮差距就非常大了。先看架构设计,Composite生成了一个很扁平的Server端,代码结构比较简单。而SWE 1.5直接给你搭了标准的MVC架构,前后端分离,Controller、路由、目录结构都很规范。"},
{"speaker": "host", "text": "MVC这个我给听众解释一下——就是把程序分成Model负责数据、View负责界面、Controller负责协调,这是软件工程里非常经典的架构模式。扁平化的代码虽然也能跑,但在可维护性和团队协作上差很多。"},
{"speaker": "guest", "text": "对。然后数据库处理这块差异更突出。Composite没有自动创建数据表,你得自己手动去跑迁移脚本。SWE 1.5呢,不仅自动建好了表,还贴心地插入了几条模拟数据方便你测试。这个细节特别能体现模型对完整开发工作流的理解深度。"},
{"speaker": "host", "text": "最后实际跑起来呢?"},
{"speaker": "guest", "text": "Composite的表现说实话有点惨——注册功能直接返回404错误,就是前端请求的API路径后端根本没注册上,验证码也显示不出来,整个系统基本跑不通。SWE 1.5就好得多,验证码正常、注册成功、登录也没问题,唯一的小瑕疵是登录成功后少了个页面跳转。"},
{"speaker": "host", "text": "三轮下来,SWE 1.5全面胜出。说实话这个结果挺让人意外的,毕竟从市场份额看,Cursor占了六成以上的AI编程工具市场,Windsurf小得多,而且最近还经历了CEO出走这种负面事件。"},
{"speaker": "guest", "text": "对,但仔细分析的话,SWE 1.5领先其实有迹可循。首先,Windsurf比Cursor更早推出自研编程模型,从SWE 1.0到1.5已经迭代了一轮,积累了不少编程场景的训练经验。其次,SWE系列一直免费开放,这形成了一个很强的数据飞轮——免费吸引用户,用户使用产生真实数据和反馈,这些数据又拿去优化模型,模型变好了又吸引更多用户。每一次用户接受或拒绝AI生成的代码,都是极其宝贵的训练信号。"},
{"speaker": "host", "text": "所以Windsurf短期牺牲了收入,但换来了海量的真实编程场景数据,这些数据的质量远超人工构造的训练集。"},
{"speaker": "guest", "text": "没错。还有第三点,从测试结果能明显感觉到SWE 1.5的工程化思维更强。它生成的代码不只是"能跑",而是遵循行业规范——标准脚手架、合理的目录结构、规范的API设计。这些细节决定了AI生成的代码能不能真正融入开发者的日常工作流。"},
{"speaker": "host", "text": "不过我得补充一句,这次对比只是针对两家的自研模型。实际使用中,Cursor和Windsurf都支持接入Claude、GPT-4这些第三方模型,整体体验还受IDE功能、上下文理解、多文件编辑等很多因素影响。"},
{"speaker": "guest", "text": "嗯,这点很重要。但就自研模型的编程能力来说,Windsurf SWE 1.5目前确实更强。这也给我们一个启示——市场份额领先不等于技术全面领先。AI编程工具这个赛道还在快速洗牌期,用户迁移成本又低,一个突破性的模型升级就可能改变格局。"},
{"speaker": "host", "text": "说得好。所以这场"小厂逆袭"值得持续关注。Cursor那边肯定不会坐以待毙,Composite后续怎么迭代、能不能追上来,可能很快就会有答案。AI编程这场仗,远没到终局。"}
],