腾讯Marvis深度体验:系统级AI助手如何重新定义人机交互

Agent产品形态正从独立工具演进为以人为中心的系统级AI助手
文章梳理了AI Agent产品形态的三次演进:从命令行式纯Agent(如Claude Code),到套壳Cloud产品,再到以人为中心的系统级助手。以腾讯Marvis为例,展示了这一新形态如何通过本地知识库、语义搜索、系统任务自动化和端云协同等能力,让Agent退居底层,最终与操作系统融为一体。
从Agent到系统级助手:产品形态的三次演进
Agent(智能体)对我们来说早已不陌生,但它的下一个形态是什么?在AI领域,Agent特指具备自主决策、规划和执行能力的智能系统——与传统的单轮问答式AI不同,Agent能够将复杂任务分解为多个步骤,自主调用工具、访问外部资源,并根据中间结果动态调整策略。2023年以来,随着大语言模型能力的飞跃,Agent从学术概念迅速走向产品化,形成了ReAct(推理+行动)、Plan-and-Execute(规划执行)等主流架构范式。回顾过去一年多的发展,我们可以清晰地划分出三个阶段:
第一阶段是以Manus为起点的纯Agent形态,包括Claude Code、Codex以及国内的Wordware、Tree等产品,它们本质上都是命令行式的AI代理。Claude Code是Anthropic推出的命令行AI编程助手,能够直接在终端中理解代码库上下文、执行文件操作和运行命令;OpenAI的Codex则是其代码生成模型的产品化形态。这类工具的共同特征是以CLI(命令行界面)为交互入口,开发者通过自然语言指令驱动Agent完成代码编写、调试和重构等任务,本质上是将大模型的推理能力嵌入开发者已有的工作流中。
第二阶段是OpenAI的Operator等产品掀起的"套壳"热潮,各种Cloud产品层出不穷,本质上是给Agent穿了一层漂亮外衣。
第三阶段,也就是正在萌芽的新形态——以人为中心的系统级AI助手。

这里有一个关键区别:Cloud类型的产品,主角始终是Agent本身,所有的包装都是为了让Agent更好用。而真正的革新应该是设置一个全新的形态,让Agent退居底层辅助,而不是占据舞台中央。就像Windows刚出现时,它不是让命令行更好用,而是用全新的视角重新定义了人与机器的交互关系——从记忆命令语法到直觉式的图形操作,交互范式的跃迁往往比功能增强更具革命性。
腾讯Marvis核心功能:以人的操作习惯为中心
腾讯最近推出的Marvis产品,正体现了这一趋势。打开它之后,除了常见的Agent对话、定时任务、技能广场之外,最有特色的变化是本地知识库功能。
系统级的文件管理能力
在Marvis的知识库中,你可以:
- 查看所有已安装的应用软件,支持打开、卸载等操作
- 浏览电脑文件系统,常用的文件操作都能直接完成
- 利用预建索引实现极速搜索
- 通过专门的"文档"和"图库"分类,建立语义级别的索引
获得用户授权后,Marvis会为文件建立语义索引,将其融入AI语义搜索的范畴。语义索引是相对于传统关键词索引的一种信息检索方式——它利用Embedding模型将文本、图片等内容转化为高维向量表示,在向量空间中通过余弦相似度等度量方式进行相似性匹配。这意味着即使查询词与目标文档没有字面重叠,只要语义相近就能被检索到。实现这一能力通常需要向量数据库(如FAISS、Milvus)的支持,以及针对不同模态的专用Embedding模型,如CLIP等多模态模型用于图文跨模态检索。虽然目前功能还不算多,但这让人第一次感受到——这款产品不再以Agent为核心,而是以人操作电脑的习惯为核心。
语义搜索的实际体验
以内容创作者的日常场景为例:每期视频都有独立文件夹,包含PPT、视频素材、图片、论文PDF等。当你想找某个东西却想不起在哪一期时,Marvis的知识库就派上了用场。
它能展示所有散落在各处的论文,用大模型理解和分类图片。更强大的是自然语言搜图——比如搜索"Transformer",就能直接定位到Transformer架构图,即使图片文件名中完全不包含这个关键词。这背后的技术原理是:系统预先用视觉-语言模型(如CLIP)对每张图片生成语义向量,查询时将自然语言同样编码为向量,通过向量相似度匹配实现跨模态检索,彻底摆脱了对文件名和标签的依赖。
你还可以在聊天框中让它根据电脑中的文档做上下文分析,整台电脑就变成了一个大知识库。这本质上是将RAG(检索增强生成)技术从云端知识库下沉到了个人本地文件系统,让每个人的电脑都成为一个私有的、可对话的知识图谱。
实用场景:从SSH配置到本地模型部署
系统级任务自动化
Marvis在处理系统级任务时展现了真正的价值。比如一个切实的需求:日常使用Mac电脑,但需要将一些4090 GPU任务交给Windows运行。SSH(Secure Shell)是一种加密网络协议,允许用户通过网络安全地远程操作另一台计算机。在AI开发场景中,许多开发者使用Mac作为日常工作机,但深度学习训练需要NVIDIA GPU的CUDA算力,因此通过SSH连接配备高端显卡的工作站是常见做法。然而手动操作需要敲各种命令、设密码、配防火墙规则、处理密钥认证和端口转发等多个环节,对非运维人员有一定门槛。而Marvis可以直接帮你完成Windows的SSH开启配置,将这些繁琐步骤自动化。
配置完成后,在Mac上用VS Code通过Remote-SSH扩展连接就非常方便了。实测对比用GPU、CPU以及Mac的MPS三种设备运行Karpathy的miniGPT-2训练代码,性能差异一目了然。这里的MPS(Metal Performance Shaders)是Apple为Mac设备提供的GPU加速框架,基于Metal图形API构建。PyTorch从1.12版本开始支持MPS后端后,Mac用户无需NVIDIA显卡也能利用Apple Silicon(M1/M2/M3/M4系列芯片)的统一内存架构进行模型训练和推理。虽然MPS在深度学习性能上仍不及CUDA生态下的高端独立显卡,但对于中小规模实验已经足够实用。
内置本地模型:隐私与效率兼顾
另一个痛点是:很多电脑上的小任务根本不需要云端大模型的算力,本地小模型就足够了。以前可能需要Ollama或LM Studio跑本地模型,再用Claude Code改配置连接,门槛不低。Ollama提供类Docker的命令行体验,支持一键拉取和运行Llama、Mistral等开源模型;LM Studio则提供图形界面,降低了使用门槛。本地运行模型的核心优势在于数据隐私(敏感信息不出本机)、零延迟(无网络往返)和零成本(无API调用费用)。但配置本地模型与其他AI工具的协同通常需要手动设置API端点和模型参数,这正是Marvis试图简化的环节。
Marvis直接内置了这个能力:
- 隐私模式:下载本地模型并自动运行,所有任务全部本地化处理,敏感数据绝不离开设备
- 效率模式:端云协同,自动判断什么任务用云端算力、什么时候用本地算力
端云协同(Edge-Cloud Collaboration)是一种计算资源调度策略,根据任务的复杂度、隐私要求和延迟敏感性,动态决定在本地设备(端)还是云端服务器执行。简单任务如文本摘要、格式转换可由本地小模型(如7B参数量级)快速完成;复杂任务如长文档分析、多步推理则路由到云端大模型(如百亿级参数模型)。这种架构需要一个智能路由层来评估任务特征并做出分发决策,是未来AI助手实现成本、隐私和能力三者平衡的关键技术路径。
处理任务时,Marvis还有个"工作室"画面,展示多个分工不同的内置Agent协同完成任务的过程,直观且有趣。这种多Agent协作架构(Multi-Agent System)让不同的专业化Agent各司其职——有的负责信息检索,有的负责代码执行,有的负责结果验证——通过协调机制共同完成复杂任务。
未来展望:Agent与操作系统融为一体
这种以人的视角为主体、以系统级Agent助手为目标的产品形态,不同于以往在Agent上面单纯叠加功能。未来当越来越多的系统级能力被打通、被API化、被CLI化,变得更易于Agent调用之后,这种产品就会越来越好用——甚至你会感知不到它的存在,彻底与操作系统融为一体。
这一趋势与计算机交互历史的演进规律高度一致:最好的技术往往是"隐形"的技术。正如TCP/IP协议栈对普通用户完全透明,未来的AI Agent也将沉入操作系统底层,成为像文件系统、内存管理一样的基础设施——用户只需表达意图,系统自动调度AI能力完成执行。
当然,从目前的功能来看,Marvis还有改进空间。比如上方的AI对话和知识库内容并没有完美融为一体,体验上还有些割裂。但方向是正确的——Agent的未来不是更强大的Agent,而是让Agent消失在系统之中,让人回归操作的主角。
这或许就是从"AI工具"到"AI操作系统"的关键一步。当Agent不再是一个需要你主动打开的应用,而是渗透在每一次文件操作、每一次搜索、每一次系统配置中的智能底层时,我们才真正进入了人机协作的新纪元。
相关推荐
产品体验Qoder vs Cursor实测对比:同样20美金谁更强?
实测对比Qoder和Cursor两款AI IDE,从Agent自主修复能力、人工沟通次数、架构决策等维度评测。Qoder仅需2次沟通完成任务,Cursor需8次。详细分析两者差异,帮你选择最适合的AI编程工具。
产品体验Cursor云Agent演示:打通软件开发全链路瓶颈
深度解析Cursor云Agent最新Demo,展示如何通过云端虚拟机、自动测试产物和全链路控制平面,系统性消除软件开发生命周期中的人类瓶颈,让Agent自主运行、人按需介入。
产品体验Cursor 3.0深度解析:多Agent并行、Design Mode与Best-of-N模型对比
Cursor 3.0正式发布,从AI辅助编程工具进化为Agent舰队指挥中心。本文详解多智能体并行、Design Mode可视化编辑、Best-of-N多模型择优等核心功能,解读AI编程新范式。