Manus实测：三大真实场景验证通用AI Agent到底行不行

一夜刷屏的Manus到底是什么

2024年，Monica团队发布了一款名为Manus的产品，号称全球首款通用AI Agent（智能体）。AI Agent（智能体）是人工智能领域的一个核心概念，指能够感知环境、自主决策并采取行动以实现特定目标的智能系统。与传统的大语言模型（LLM）相比，Agent不仅能生成文本回复，还具备"感知-规划-行动-反馈"的完整闭环能力。2023年以来，随着GPT-4、Claude等基础模型能力的飞跃，业界开始探索在模型之上构建Agent框架，让AI从被动应答转向主动执行。斯坦福大学的"生成式智能体"实验、AutoGPT开源项目等都是这一方向的早期探索。Manus的出现，可以视为这条技术路线从实验室走向产品化的重要里程碑。

和我们熟悉的垂直领域智能体不同，Manus主打"通用"——无论你需要深入的市场调研、繁琐的文件批量处理、个性化的旅游规划，还是专业的数据分析，它都能独立思考、系统规划，在虚拟环境中调用各类工具，编写并执行代码，操作网页应用，最终直接交付完整的任务成果，而不仅仅是给出建议或答案。

值得一提的是，Monica是一家专注于AI生产力工具的公司，此前以Chrome浏览器AI助手插件起家，积累了大量用户对AI辅助工作流的需求洞察。Monica插件支持调用多种大语言模型进行网页摘要、写作辅助、翻译等功能，在全球拥有数百万用户。正是这种对用户真实工作场景的深度理解，为其开发通用AI Agent产品奠定了产品设计和工程实现的基础。

换句话说，AI正在从"对话助手"进化为"任务执行者"。接下来，我们通过三个真实测试场景，看看这款通用AI Agent的实际表现究竟如何。

Manus实测场景一：人类历史各时代特点分析报告

第一个测试，我们向Manus提出了一个开放性问题："人类历史各时代的特点分析"。

Manus接到请求后，先对问题做了拆解分析，再将其分成多个执行步骤——包括文件创建、网页搜索、信息汇总等。整个过程完全自主完成，不需要任何人工干预。

Manus生成的历史分析报告

最终输出的报告内容相当完整，结构也很清晰。设想一下，如果你是一位语文老师或历史研究者，要做这样一份课件或研究报告，搜集资料、整理框架、撰写内容，少说也要三到五天。而Manus在不到五分钟的时间内就完成了全部工作。

这个案例看起来并不复杂，但它充分展示了Manus在信息检索、内容组织和报告生成方面的综合能力——这恰恰是通用AI Agent的核心价值所在。这里所体现的端到端交付能力，是理解Manus价值的关键。端到端（End-to-End）交付指从接收输入到产出最终可用成果的全流程自动化，中间无需人工介入或切换工具。这背后涉及多项关键技术的协同：任务规划（Task Planning）负责将复杂目标拆解为可执行的子任务序列；工具调用（Tool Use/Function Calling）让模型能够操作浏览器、执行Python代码、读写文件等；而自我反思（Self-Reflection）机制则让Agent在执行过程中不断检查中间结果，必要时调整策略。

Manus实测场景二：特斯拉股票深度分析与数据可视化

第二个案例专业性更强：深度分析特斯拉股票，涵盖财务数据、市场情绪、行业趋势等多个维度。

Manus收到请求后，同样先拆解问题，然后搜索相关网页数据，在本地服务器上创建分析文件。执行过程中，它自动生成了财务报表、SWOT分析图表等专业内容。SWOT分析是战略管理领域最经典的分析框架之一，由哈佛商学院教授肯尼斯·安德鲁斯在20世纪60年代提出。SWOT分别代表Strengths（优势）、Weaknesses（劣势）、Opportunities（机会）和Threats（威胁），通过对这四个维度的系统梳理，帮助决策者全面评估一个企业、项目或投资标的的内外部环境。在金融分析领域，SWOT分析常与财务比率分析、行业对标分析等方法结合使用，形成完整的投资研究报告。Manus能够自动生成SWOT分析图表，说明它不仅具备数据抓取能力，还内化了专业的分析方法论。

Manus生成的特斯拉分析Dashboard

最终产出的不只是一份文字报告（Tesla Stock Analyst Report），还有一个可交互的数据Dashboard网站，能从多个维度查看特斯拉的各项数据指标。

对金融分析师来说，完整梳理这样一份报告至少要一周时间。如果还要额外开发一个数据可视化网站，那更得拉上技术团队一起协作。Manus把这些全压缩到了几分钟之内，这种端到端的交付能力确实令人印象深刻。

通用AI Agent与垂直智能体有什么本质区别

很多人会问：过去两年，国内已经有不少企业在做智能体产品，比如Coze、扣子元器、智谱等平台上的各类Bot，Manus凭什么被称为"颠覆性产品"？

垂直智能体的工作流模式

关键区别在于通用性。目前市面上大多数智能体本质上属于垂直智能体——开发者需要提前搭建工作流、定义智能体的行为边界。这些平台代表了当前AI智能体生态的主流形态——工作流编排平台。其核心思路是让开发者通过可视化界面，将大语言模型与外部API、数据库、插件等工具按预定义的流程串联起来，形成针对特定场景的智能体。例如，一个"简历筛选Bot"背后可能是"接收简历→调用OCR解析→提取关键信息→与岗位要求匹配→输出评分"这样一条固定流水线。比如一个"股票分析助手"，背后是预设好的股票分析工作流和外部插件对接。一旦用户的问题超出了预设范围，智能体就退化成了"裸模型"的简单问答。这种模式的优势在于可控性强、部署成本低，但劣势也很明显：每个新场景都需要人工重新设计工作流，智能体的能力边界完全取决于开发者的预设，缺乏应对未知任务的泛化能力。

Manus的突破在于：不管你提出什么方向的问题，它都能用专业且体系化的方法去解决。它不依赖预设工作流，而是根据每个具体任务动态规划执行路径。打个比方，这就像《钢铁侠》里的贾维斯——一个具备个性化能力、能像人一样处理不同维度问题的超级智能体。

从工具到伙伴：AI Agent的关键跨越

传统智能体的逻辑是"人定义流程，AI执行流程"，而Manus的逻辑是"人提出目标，AI自主规划并执行"。这是AI Agent从工具向伙伴演进的关键一步，也是通用智能体与垂直智能体之间最根本的差异。

GAIA基准测试：Manus的权威成绩单

Manus的能力不只体现在演示案例中，在权威基准测试上同样表现亮眼。

GAIA（General AI Assistants）是由Meta AI和HuggingFace等团队于2023年提出的通用助手能力基准测试体系，包含400多个精心设计的问题。跟传统的数学、编程等单一能力测试不同，GAIA重点考察概念简单但需要多步骤解决的实际问题，要求AI具备网络搜索、工具调用、编程、文件处理、数学计算等综合能力。

GAIA基准测试的设计理念与传统AI评测有本质不同。传统评测（如MMLU、HumanEval等）侧重考察模型在特定知识领域或编程任务上的能力，题目往往有标准答案且可自动评分。而GAIA的核心洞察是：对人类来说概念简单但执行繁琐的任务，恰恰是检验AI实用性的最佳试金石。例如，"找出2023年诺贝尔物理学奖得主本科就读的大学，并计算该大学当前的本科生学费"——这个问题人类理解起来毫无难度，但要正确回答，AI需要进行多步网络搜索、跨源信息验证、数据提取和计算。GAIA的三个难度等级主要按所需步骤数和工具调用复杂度划分：Level 1通常需要1-3步，Level 2需要5-8步，Level 3则可能需要10步以上且涉及多种工具协同。

GAIA基准测试各级别得分

GAIA分为三个难度等级，Manus的测试成绩如下：

等级	Manus得分	对比说明
Level 1	86.5%	远超OpenAI Deep Research
Level 2	70.0%	大幅领先同类AI Agent产品
Level 3	57.7%	最高难度仍保持明显优势

作为参考，2023年人类在GAIA测试中的平均成功率约为90%，而当时最强的GPT-4在Level 1上仅勉强达到15%。Manus在Level 1上已经接近人类水平，这个进步速度相当惊人。

冷静看待：Manus的局限与未来发展空间

虽然Manus的表现让人眼前一亮，但我们也需要保持理性判断：

尚未开放公测：目前Manus采用邀请制，外界看到的主要是官方提供的Use Case演示，大规模用户场景下的稳定性和准确性还有待验证。
复杂任务的可靠性存疑：Level 3的57.7%意味着接近一半的高难度任务仍然无法完成，离真正的"通用智能"还有不小的距离。
成本与效率的平衡：通用Agent需要调用大量计算资源和外部工具，商业化路径和使用成本是绑不开的现实问题。

不过话说回来，从年初的DeepSeek到三月的Manus，短短三个月时间，AI Agent领域就实现了质的飞跃。DeepSeek是中国AI公司深度求索在2025年初发布的开源大语言模型系列，其中DeepSeek-R1以极低的训练成本实现了接近GPT-4o的推理能力，在全球AI社区引发巨大震动。DeepSeek的突破主要体现在两个方面：一是通过混合专家架构（MoE）和创新的训练策略大幅降低了模型训练和推理成本；二是在数学推理、代码生成等任务上展现了与闭源顶级模型相当的性能。DeepSeek的出现打破了"只有烧钱才能做好大模型"的行业共识，而Manus则在Agent层面展示了另一种可能——即使底层模型能力趋于同质化，在Agent架构和任务执行层面仍有巨大的创新空间。通用Agent的出现标志着AI正在从"能聊天"走向"能干活"，这对各行各业的影响将是深远的。

AI正在从能聊天走向能干活

Manus让我们看到了通用AI Agent的终极形态雏形——一个能理解任意任务、自主规划执行路径、调用各类工具并交付完整成果的智能体。它还不完美，但方向已经非常明确。

对每一个从业者来说，AI带来的变革已经不是遥不可及的概念，而是正在快速落地的现实。主动理解和拥抱AI Agent技术，可能是当下最值得投入的个人能力建设方向。

核心要点

Manus是全球首款通用Agent产品，能够自主规划和执行各类复杂任务，直接交付完整成果而非仅提供建议
与传统垂直智能体不同，Manus无需预设工作流，可动态应对任意方向的问题，实现了从工具到伙伴的质变
在GAIA基准测试中，Manus在三个难度等级分别达到86.5%、70%和57.7%，远超OpenAI等竞品
实测场景涵盖历史分析报告生成和特斯拉股票深度分析，展示了信息检索、数据分析、代码执行、可视化等综合能力
产品目前仍为邀请制，大规模场景下的稳定性和商业化路径有待验证