Manus实测：基于DeepSeek技术路线的AI Agent表现如何

引言

Manus作为近期备受关注的AI Agent产品，其底层模型的选择直接影响任务执行的质量与效率。B站UP主「花师小哲」对Manus在DeepSeek技术路线下的实际表现进行了案例实测，为我们提供了一手的使用体验参考。

bilibili source

Manus与DeepSeek的结合：技术背景解析

什么是Manus AI Agent

Manus是一款通用型AI Agent，能够自主规划任务、调用工具、执行多步骤操作。与传统的对话式AI不同，Manus强调的是「端到端」的任务完成能力——用户只需描述目标，系统会自动拆解步骤并逐一执行。

要理解Manus的定位，首先需要厘清AI Agent与传统聊天机器人的本质区别。传统对话式AI（如早期的ChatGPT使用模式）本质上是一个「问答系统」，用户提问、模型回答，交互在单轮或多轮对话中完成。而AI Agent则具备自主性（Autonomy）——它能够感知环境、制定计划、采取行动并根据反馈调整策略。在技术架构上，Agent通常包含规划模块（Planning）、记忆模块（Memory）、工具使用模块（Tool Use）和行动模块（Action）四大核心组件。Manus的设计理念正是将这些模块有机整合，使大语言模型从「被动应答者」转变为「主动执行者」，能够操作浏览器、编写代码、管理文件等，真正完成现实世界中的复杂任务。

DeepSeek技术路线的核心特点

DeepSeek作为国产大模型的代表，以其强大的推理能力和开源策略著称。DeepSeek-R1系列模型在数学推理、代码生成等任务上表现突出，其MoE（混合专家）架构在保持高性能的同时有效控制了推理成本。

MoE（Mixture of Experts，混合专家）架构是DeepSeek技术路线中的关键创新。传统的Dense模型（如GPT-4）在每次推理时会激活所有参数，而MoE架构将模型划分为多个「专家网络」，每次推理仅激活其中一小部分相关专家。DeepSeek-V3采用的MoE架构拥有6710亿总参数，但每次推理仅激活约370亿参数，这意味着在获得大模型能力的同时，推理计算量大幅降低。此外，DeepSeek-R1的核心突破在于通过大规模强化学习（RL）训练，让模型自发涌现出深度思考和自我验证的能力，而非仅依赖监督微调。这种训练范式使模型在面对复杂推理任务时，能够生成详细的思维链（Thinking Chain），逐步推导出正确答案。在开源生态方面，DeepSeek采用MIT许可证开源模型权重，这为下游应用（包括Agent系统）的定制化开发提供了极大便利。

当Manus采用DeepSeek作为底层推理引擎时，理论上能够在以下方面获得优势：

复杂任务的逻辑推理能力更强
中文场景下的理解和生成质量更高
推理成本相对较低，适合多步骤Agent调用

实测案例分析：Manus基于DeepSeek的任务执行表现

任务执行流程详解

从实测视频来看，Manus在接收用户指令后，会经历任务理解、计划制定、逐步执行、结果汇总等阶段。DeepSeek模型在任务拆解环节展现了较好的逻辑性，能够将复杂需求分解为可执行的子任务。

这一流程背后的技术框架与当前主流的Agent设计范式密切相关。目前业界广泛采用的ReAct（Reasoning + Acting）框架，要求模型在每一步都先进行推理（Reasoning）——思考当前状态和下一步应该做什么，然后再执行动作（Acting）——调用工具或生成输出，最后观察结果（Observation）并进入下一轮循环。Manus的任务拆解过程本质上是一个层次化规划（Hierarchical Planning）问题：顶层将用户目标分解为若干子目标，每个子目标再进一步分解为具体的可执行步骤。DeepSeek强大的推理能力在此环节尤为关键，因为任务拆解的质量直接决定了后续执行的成功率——一个不合理的计划即使每一步都执行正确，最终也可能无法达成目标。

视频截图

表现亮点与不足

基于DeepSeek技术路线，Manus在中文理解和推理链路上具有一定优势，尤其在需要多轮思考的场景中，DeepSeek的Chain-of-Thought能力能够帮助Agent做出更合理的决策。

Chain-of-Thought（思维链，简称CoT）是一种让大语言模型展示中间推理步骤的技术范式。与直接输出最终答案不同，CoT要求模型将思考过程显式化——例如在解决一个多步骤任务时，模型会先分析问题的各个方面，列出可能的方案，评估每个方案的优劣，最终选择最优路径。DeepSeek-R1通过强化学习训练，使模型能够自主生成长达数千token的思维链，这在Agent场景中意味着系统能够在执行每一步之前进行充分的「内部审议」，从而降低错误决策的概率。

然而，Agent类产品的表现不仅取决于底层模型，还受到工具调用稳定性、上下文窗口管理、错误恢复机制等多重因素影响。

工具调用（Function Calling / Tool Use）是Agent系统中最容易出现故障的环节之一。模型需要准确判断何时调用工具、调用哪个工具、以及如何构造正确的参数格式——任何一个环节的偏差都可能导致执行失败。上下文窗口管理则是另一个核心挑战：随着Agent执行步骤的增加，历史信息不断累积，很快就会超出模型的上下文长度限制。如何在有限的上下文中保留最关键的信息（如任务目标、已完成步骤、关键中间结果），同时丢弃冗余内容，是Agent系统设计中的重要工程问题。错误恢复机制则要求Agent在某一步执行失败时，能够识别错误原因、回退到合适的状态并尝试替代方案，而非简单地终止整个任务流程。

视频截图

技术路线选择的深度思考

模型能力与Agent效果的关系

对于AI Agent而言，底层模型的选择是一个多维度的权衡：

推理能力：决定了任务规划的质量
指令遵循：影响工具调用的准确性
上下文长度：限制了复杂任务的处理深度
响应速度：直接影响用户体验

DeepSeek在推理能力上的优势使其成为Agent场景的有力候选，但在实际应用中仍需要针对Agent场景进行专门优化。

值得深入探讨的是，Agent场景对模型能力的要求与通用对话场景存在显著差异。在通用对话中，模型的「创造性」和「流畅性」往往更受重视；而在Agent场景中，「精确性」和「可靠性」才是核心指标。一个Agent模型需要严格遵循预定义的输出格式（如JSON格式的工具调用指令），任何格式偏差都会导致系统解析失败。此外，Agent场景要求模型具备强大的「自我监控」能力——能够判断当前步骤是否成功、是否需要重试、何时应该向用户请求澄清。当前业界的探索方向包括：针对Agent场景的专门微调（Agent Tuning）、通过强化学习优化模型的工具调用成功率、以及设计更鲁棒的提示词工程（Prompt Engineering）框架来约束模型行为。OpenAI、Anthropic等公司也在积极推进「计算机使用」（Computer Use）能力的训练，这与Manus的产品方向高度一致。

国产模型在AI Agent领域的前景

随着DeepSeek等国产模型的快速迭代，基于国产模型构建的AI Agent生态正在逐步成熟。这不仅意味着更低的使用成本，也为数据安全和本地化部署提供了更多可能性。

从产业生态的角度来看，国产模型在Agent领域的布局具有多重战略意义。首先是成本优势：DeepSeek的API定价远低于GPT-4等海外模型，而Agent应用由于需要多次调用模型（一个复杂任务可能需要数十次甚至上百次模型调用），推理成本的差异会被显著放大。其次是数据合规性：在金融、医疗、政务等敏感领域，使用国产模型可以避免数据出境的合规风险，同时支持私有化部署。最后是生态协同：随着国内开源社区的壮大，围绕DeepSeek等模型已经形成了包括推理框架（vLLM、SGLang）、Agent框架（如MetaGPT、AutoGen的国产适配）、以及垂直领域应用在内的完整技术栈，这为Agent产品的快速迭代提供了坚实的基础设施支撑。

总结

Manus结合DeepSeek技术路线的实测为我们展示了国产大模型在Agent应用中的潜力。虽然当前仍存在优化空间，但这一方向值得持续关注。对于开发者和用户而言，了解不同技术路线的特点有助于做出更合适的选择。

核心要点

Manus支持基于DeepSeek技术路线运行，利用其强推理能力提升Agent任务规划质量
DeepSeek的MoE架构在多步骤Agent调用场景中具有成本优势
AI Agent的实际表现受模型能力、工具调用稳定性、上下文管理等多重因素共同影响
国产大模型在Agent生态中的应用前景值得关注