腾讯Marvis深度体验：系统级AI助手如何重新定义人机交互

从Agent到系统级助手：产品形态的三次演进

Agent（智能体）对我们来说早已不陌生，但它的下一个形态是什么？在AI领域，Agent特指具备自主决策、规划和执行能力的智能系统——与传统的单轮问答式AI不同，Agent能够将复杂任务分解为多个步骤，自主调用工具、访问外部资源，并根据中间结果动态调整策略。2023年以来，随着大语言模型能力的飞跃，Agent从学术概念迅速走向产品化，形成了ReAct（推理+行动）、Plan-and-Execute（规划执行）等主流架构范式。回顾过去一年多的发展，我们可以清晰地划分出三个阶段：

第一阶段是以Manus为起点的纯Agent形态，包括Claude Code、Codex以及国内的Wordware、Tree等产品，它们本质上都是命令行式的AI代理。Claude Code是Anthropic推出的命令行AI编程助手，能够直接在终端中理解代码库上下文、执行文件操作和运行命令；OpenAI的Codex则是其代码生成模型的产品化形态。这类工具的共同特征是以CLI（命令行界面）为交互入口，开发者通过自然语言指令驱动Agent完成代码编写、调试和重构等任务，本质上是将大模型的推理能力嵌入开发者已有的工作流中。

第二阶段是OpenAI的Operator等产品掀起的"套壳"热潮，各种Cloud产品层出不穷，本质上是给Agent穿了一层漂亮外衣。

第三阶段，也就是正在萌芽的新形态——以人为中心的系统级AI助手。

bilibili source: Agent 的下个形态是什么？Marvis 给出了一个答案

这里有一个关键区别：Cloud类型的产品，主角始终是Agent本身，所有的包装都是为了让Agent更好用。而真正的革新应该是设置一个全新的形态，让Agent退居底层辅助，而不是占据舞台中央。就像Windows刚出现时，它不是让命令行更好用，而是用全新的视角重新定义了人与机器的交互关系——从记忆命令语法到直觉式的图形操作，交互范式的跃迁往往比功能增强更具革命性。

腾讯Marvis核心功能：以人的操作习惯为中心

腾讯最近推出的Marvis产品，正体现了这一趋势。打开它之后，除了常见的Agent对话、定时任务、技能广场之外，最有特色的变化是本地知识库功能。

系统级的文件管理能力

在Marvis的知识库中，你可以：

查看所有已安装的应用软件，支持打开、卸载等操作
浏览电脑文件系统，常用的文件操作都能直接完成
利用预建索引实现极速搜索
通过专门的"文档"和"图库"分类，建立语义级别的索引

获得用户授权后，Marvis会为文件建立语义索引，将其融入AI语义搜索的范畴。语义索引是相对于传统关键词索引的一种信息检索方式——它利用Embedding模型将文本、图片等内容转化为高维向量表示，在向量空间中通过余弦相似度等度量方式进行相似性匹配。这意味着即使查询词与目标文档没有字面重叠，只要语义相近就能被检索到。实现这一能力通常需要向量数据库（如FAISS、Milvus）的支持，以及针对不同模态的专用Embedding模型，如CLIP等多模态模型用于图文跨模态检索。虽然目前功能还不算多，但这让人第一次感受到——这款产品不再以Agent为核心，而是以人操作电脑的习惯为核心。

语义搜索的实际体验

以内容创作者的日常场景为例：每期视频都有独立文件夹，包含PPT、视频素材、图片、论文PDF等。当你想找某个东西却想不起在哪一期时，Marvis的知识库就派上了用场。

它能展示所有散落在各处的论文，用大模型理解和分类图片。更强大的是自然语言搜图——比如搜索"Transformer"，就能直接定位到Transformer架构图，即使图片文件名中完全不包含这个关键词。这背后的技术原理是：系统预先用视觉-语言模型（如CLIP）对每张图片生成语义向量，查询时将自然语言同样编码为向量，通过向量相似度匹配实现跨模态检索，彻底摆脱了对文件名和标签的依赖。

你还可以在聊天框中让它根据电脑中的文档做上下文分析，整台电脑就变成了一个大知识库。这本质上是将RAG（检索增强生成）技术从云端知识库下沉到了个人本地文件系统，让每个人的电脑都成为一个私有的、可对话的知识图谱。

实用场景：从SSH配置到本地模型部署

系统级任务自动化

Marvis在处理系统级任务时展现了真正的价值。比如一个切实的需求：日常使用Mac电脑，但需要将一些4090 GPU任务交给Windows运行。SSH（Secure Shell）是一种加密网络协议，允许用户通过网络安全地远程操作另一台计算机。在AI开发场景中，许多开发者使用Mac作为日常工作机，但深度学习训练需要NVIDIA GPU的CUDA算力，因此通过SSH连接配备高端显卡的工作站是常见做法。然而手动操作需要敲各种命令、设密码、配防火墙规则、处理密钥认证和端口转发等多个环节，对非运维人员有一定门槛。而Marvis可以直接帮你完成Windows的SSH开启配置，将这些繁琐步骤自动化。

配置完成后，在Mac上用VS Code通过Remote-SSH扩展连接就非常方便了。实测对比用GPU、CPU以及Mac的MPS三种设备运行Karpathy的miniGPT-2训练代码，性能差异一目了然。这里的MPS（Metal Performance Shaders）是Apple为Mac设备提供的GPU加速框架，基于Metal图形API构建。PyTorch从1.12版本开始支持MPS后端后，Mac用户无需NVIDIA显卡也能利用Apple Silicon（M1/M2/M3/M4系列芯片）的统一内存架构进行模型训练和推理。虽然MPS在深度学习性能上仍不及CUDA生态下的高端独立显卡，但对于中小规模实验已经足够实用。

内置本地模型：隐私与效率兼顾

另一个痛点是：很多电脑上的小任务根本不需要云端大模型的算力，本地小模型就足够了。以前可能需要Ollama或LM Studio跑本地模型，再用Claude Code改配置连接，门槛不低。Ollama提供类Docker的命令行体验，支持一键拉取和运行Llama、Mistral等开源模型；LM Studio则提供图形界面，降低了使用门槛。本地运行模型的核心优势在于数据隐私（敏感信息不出本机）、零延迟（无网络往返）和零成本（无API调用费用）。但配置本地模型与其他AI工具的协同通常需要手动设置API端点和模型参数，这正是Marvis试图简化的环节。

Marvis直接内置了这个能力：

隐私模式：下载本地模型并自动运行，所有任务全部本地化处理，敏感数据绝不离开设备
效率模式：端云协同，自动判断什么任务用云端算力、什么时候用本地算力

端云协同（Edge-Cloud Collaboration）是一种计算资源调度策略，根据任务的复杂度、隐私要求和延迟敏感性，动态决定在本地设备（端）还是云端服务器执行。简单任务如文本摘要、格式转换可由本地小模型（如7B参数量级）快速完成；复杂任务如长文档分析、多步推理则路由到云端大模型（如百亿级参数模型）。这种架构需要一个智能路由层来评估任务特征并做出分发决策，是未来AI助手实现成本、隐私和能力三者平衡的关键技术路径。

处理任务时，Marvis还有个"工作室"画面，展示多个分工不同的内置Agent协同完成任务的过程，直观且有趣。这种多Agent协作架构（Multi-Agent System）让不同的专业化Agent各司其职——有的负责信息检索，有的负责代码执行，有的负责结果验证——通过协调机制共同完成复杂任务。

未来展望：Agent与操作系统融为一体

这种以人的视角为主体、以系统级Agent助手为目标的产品形态，不同于以往在Agent上面单纯叠加功能。未来当越来越多的系统级能力被打通、被API化、被CLI化，变得更易于Agent调用之后，这种产品就会越来越好用——甚至你会感知不到它的存在，彻底与操作系统融为一体。

这一趋势与计算机交互历史的演进规律高度一致：最好的技术往往是"隐形"的技术。正如TCP/IP协议栈对普通用户完全透明，未来的AI Agent也将沉入操作系统底层，成为像文件系统、内存管理一样的基础设施——用户只需表达意图，系统自动调度AI能力完成执行。

当然，从目前的功能来看，Marvis还有改进空间。比如上方的AI对话和知识库内容并没有完美融为一体，体验上还有些割裂。但方向是正确的——Agent的未来不是更强大的Agent，而是让Agent消失在系统之中，让人回归操作的主角。

这或许就是从"AI工具"到"AI操作系统"的关键一步。当Agent不再是一个需要你主动打开的应用，而是渗透在每一次文件操作、每一次搜索、每一次系统配置中的智能底层时，我们才真正进入了人机协作的新纪元。