Manus实测:三大真实场景验证通用AI Agent到底行不行

Manus是全球首款通用AI Agent,能自主规划执行任务并交付完整成果。
Monica团队发布的Manus号称全球首款通用AI Agent,区别于需要预设工作流的垂直智能体,它能根据任意任务动态规划执行路径,自主调用工具并交付完整成果。实测中,Manus在几分钟内完成了历史分析报告和特斯拉股票深度分析(含可交互Dashboard)。在GAIA基准测试中,其三个难度等级分别达到86.5%、70%和57.7%,远超同类产品。但产品仍为邀请制,大规模稳定性和商业化路径有待验证。
一夜刷屏的Manus到底是什么
2024年,Monica团队发布了一款名为Manus的产品,号称全球首款通用AI Agent(智能体)。AI Agent(智能体)是人工智能领域的一个核心概念,指能够感知环境、自主决策并采取行动以实现特定目标的智能系统。与传统的大语言模型(LLM)相比,Agent不仅能生成文本回复,还具备"感知-规划-行动-反馈"的完整闭环能力。2023年以来,随着GPT-4、Claude等基础模型能力的飞跃,业界开始探索在模型之上构建Agent框架,让AI从被动应答转向主动执行。斯坦福大学的"生成式智能体"实验、AutoGPT开源项目等都是这一方向的早期探索。Manus的出现,可以视为这条技术路线从实验室走向产品化的重要里程碑。
和我们熟悉的垂直领域智能体不同,Manus主打"通用"——无论你需要深入的市场调研、繁琐的文件批量处理、个性化的旅游规划,还是专业的数据分析,它都能独立思考、系统规划,在虚拟环境中调用各类工具,编写并执行代码,操作网页应用,最终直接交付完整的任务成果,而不仅仅是给出建议或答案。
值得一提的是,Monica是一家专注于AI生产力工具的公司,此前以Chrome浏览器AI助手插件起家,积累了大量用户对AI辅助工作流的需求洞察。Monica插件支持调用多种大语言模型进行网页摘要、写作辅助、翻译等功能,在全球拥有数百万用户。正是这种对用户真实工作场景的深度理解,为其开发通用AI Agent产品奠定了产品设计和工程实现的基础。
换句话说,AI正在从"对话助手"进化为"任务执行者"。接下来,我们通过三个真实测试场景,看看这款通用AI Agent的实际表现究竟如何。
Manus实测场景一:人类历史各时代特点分析报告
第一个测试,我们向Manus提出了一个开放性问题:"人类历史各时代的特点分析"。
Manus接到请求后,先对问题做了拆解分析,再将其分成多个执行步骤——包括文件创建、网页搜索、信息汇总等。整个过程完全自主完成,不需要任何人工干预。

最终输出的报告内容相当完整,结构也很清晰。设想一下,如果你是一位语文老师或历史研究者,要做这样一份课件或研究报告,搜集资料、整理框架、撰写内容,少说也要三到五天。而Manus在不到五分钟的时间内就完成了全部工作。
这个案例看起来并不复杂,但它充分展示了Manus在信息检索、内容组织和报告生成方面的综合能力——这恰恰是通用AI Agent的核心价值所在。这里所体现的端到端交付能力,是理解Manus价值的关键。端到端(End-to-End)交付指从接收输入到产出最终可用成果的全流程自动化,中间无需人工介入或切换工具。这背后涉及多项关键技术的协同:任务规划(Task Planning)负责将复杂目标拆解为可执行的子任务序列;工具调用(Tool Use/Function Calling)让模型能够操作浏览器、执行Python代码、读写文件等;而自我反思(Self-Reflection)机制则让Agent在执行过程中不断检查中间结果,必要时调整策略。
Manus实测场景二:特斯拉股票深度分析与数据可视化
第二个案例专业性更强:深度分析特斯拉股票,涵盖财务数据、市场情绪、行业趋势等多个维度。
Manus收到请求后,同样先拆解问题,然后搜索相关网页数据,在本地服务器上创建分析文件。执行过程中,它自动生成了财务报表、SWOT分析图表等专业内容。SWOT分析是战略管理领域最经典的分析框架之一,由哈佛商学院教授肯尼斯·安德鲁斯在20世纪60年代提出。SWOT分别代表Strengths(优势)、Weaknesses(劣势)、Opportunities(机会)和Threats(威胁),通过对这四个维度的系统梳理,帮助决策者全面评估一个企业、项目或投资标的的内外部环境。在金融分析领域,SWOT分析常与财务比率分析、行业对标分析等方法结合使用,形成完整的投资研究报告。Manus能够自动生成SWOT分析图表,说明它不仅具备数据抓取能力,还内化了专业的分析方法论。

最终产出的不只是一份文字报告(Tesla Stock Analyst Report),还有一个可交互的数据Dashboard网站,能从多个维度查看特斯拉的各项数据指标。
对金融分析师来说,完整梳理这样一份报告至少要一周时间。如果还要额外开发一个数据可视化网站,那更得拉上技术团队一起协作。Manus把这些全压缩到了几分钟之内,这种端到端的交付能力确实令人印象深刻。
通用AI Agent与垂直智能体有什么本质区别
很多人会问:过去两年,国内已经有不少企业在做智能体产品,比如Coze、扣子元器、智谱等平台上的各类Bot,Manus凭什么被称为"颠覆性产品"?

关键区别在于通用性。目前市面上大多数智能体本质上属于垂直智能体——开发者需要提前搭建工作流、定义智能体的行为边界。这些平台代表了当前AI智能体生态的主流形态——工作流编排平台。其核心思路是让开发者通过可视化界面,将大语言模型与外部API、数据库、插件等工具按预定义的流程串联起来,形成针对特定场景的智能体。例如,一个"简历筛选Bot"背后可能是"接收简历→调用OCR解析→提取关键信息→与岗位要求匹配→输出评分"这样一条固定流水线。比如一个"股票分析助手",背后是预设好的股票分析工作流和外部插件对接。一旦用户的问题超出了预设范围,智能体就退化成了"裸模型"的简单问答。这种模式的优势在于可控性强、部署成本低,但劣势也很明显:每个新场景都需要人工重新设计工作流,智能体的能力边界完全取决于开发者的预设,缺乏应对未知任务的泛化能力。
Manus的突破在于:不管你提出什么方向的问题,它都能用专业且体系化的方法去解决。它不依赖预设工作流,而是根据每个具体任务动态规划执行路径。打个比方,这就像《钢铁侠》里的贾维斯——一个具备个性化能力、能像人一样处理不同维度问题的超级智能体。
从工具到伙伴:AI Agent的关键跨越
传统智能体的逻辑是"人定义流程,AI执行流程",而Manus的逻辑是"人提出目标,AI自主规划并执行"。这是AI Agent从工具向伙伴演进的关键一步,也是通用智能体与垂直智能体之间最根本的差异。
GAIA基准测试:Manus的权威成绩单
Manus的能力不只体现在演示案例中,在权威基准测试上同样表现亮眼。
GAIA(General AI Assistants)是由Meta AI和HuggingFace等团队于2023年提出的通用助手能力基准测试体系,包含400多个精心设计的问题。跟传统的数学、编程等单一能力测试不同,GAIA重点考察概念简单但需要多步骤解决的实际问题,要求AI具备网络搜索、工具调用、编程、文件处理、数学计算等综合能力。
GAIA基准测试的设计理念与传统AI评测有本质不同。传统评测(如MMLU、HumanEval等)侧重考察模型在特定知识领域或编程任务上的能力,题目往往有标准答案且可自动评分。而GAIA的核心洞察是:对人类来说概念简单但执行繁琐的任务,恰恰是检验AI实用性的最佳试金石。例如,"找出2023年诺贝尔物理学奖得主本科就读的大学,并计算该大学当前的本科生学费"——这个问题人类理解起来毫无难度,但要正确回答,AI需要进行多步网络搜索、跨源信息验证、数据提取和计算。GAIA的三个难度等级主要按所需步骤数和工具调用复杂度划分:Level 1通常需要1-3步,Level 2需要5-8步,Level 3则可能需要10步以上且涉及多种工具协同。

GAIA分为三个难度等级,Manus的测试成绩如下:
| 等级 | Manus得分 | 对比说明 |
|---|---|---|
| Level 1 | 86.5% | 远超OpenAI Deep Research |
| Level 2 | 70.0% | 大幅领先同类AI Agent产品 |
| Level 3 | 57.7% | 最高难度仍保持明显优势 |
作为参考,2023年人类在GAIA测试中的平均成功率约为90%,而当时最强的GPT-4在Level 1上仅勉强达到15%。Manus在Level 1上已经接近人类水平,这个进步速度相当惊人。
冷静看待:Manus的局限与未来发展空间
虽然Manus的表现让人眼前一亮,但我们也需要保持理性判断:
- 尚未开放公测:目前Manus采用邀请制,外界看到的主要是官方提供的Use Case演示,大规模用户场景下的稳定性和准确性还有待验证。
- 复杂任务的可靠性存疑:Level 3的57.7%意味着接近一半的高难度任务仍然无法完成,离真正的"通用智能"还有不小的距离。
- 成本与效率的平衡:通用Agent需要调用大量计算资源和外部工具,商业化路径和使用成本是绑不开的现实问题。
不过话说回来,从年初的DeepSeek到三月的Manus,短短三个月时间,AI Agent领域就实现了质的飞跃。DeepSeek是中国AI公司深度求索在2025年初发布的开源大语言模型系列,其中DeepSeek-R1以极低的训练成本实现了接近GPT-4o的推理能力,在全球AI社区引发巨大震动。DeepSeek的突破主要体现在两个方面:一是通过混合专家架构(MoE)和创新的训练策略大幅降低了模型训练和推理成本;二是在数学推理、代码生成等任务上展现了与闭源顶级模型相当的性能。DeepSeek的出现打破了"只有烧钱才能做好大模型"的行业共识,而Manus则在Agent层面展示了另一种可能——即使底层模型能力趋于同质化,在Agent架构和任务执行层面仍有巨大的创新空间。通用Agent的出现标志着AI正在从"能聊天"走向"能干活",这对各行各业的影响将是深远的。
AI正在从能聊天走向能干活
Manus让我们看到了通用AI Agent的终极形态雏形——一个能理解任意任务、自主规划执行路径、调用各类工具并交付完整成果的智能体。它还不完美,但方向已经非常明确。
对每一个从业者来说,AI带来的变革已经不是遥不可及的概念,而是正在快速落地的现实。主动理解和拥抱AI Agent技术,可能是当下最值得投入的个人能力建设方向。
核心要点
- Manus是全球首款通用Agent产品,能够自主规划和执行各类复杂任务,直接交付完整成果而非仅提供建议
- 与传统垂直智能体不同,Manus无需预设工作流,可动态应对任意方向的问题,实现了从工具到伙伴的质变
- 在GAIA基准测试中,Manus在三个难度等级分别达到86.5%、70%和57.7%,远超OpenAI等竞品
- 实测场景涵盖历史分析报告生成和特斯拉股票深度分析,展示了信息检索、数据分析、代码执行、可视化等综合能力
- 产品目前仍为邀请制,大规模场景下的稳定性和商业化路径有待验证
相关推荐
产品体验Qoder vs Cursor实测对比:同样20美金谁更强?
实测对比Qoder和Cursor两款AI IDE,从Agent自主修复能力、人工沟通次数、架构决策等维度评测。Qoder仅需2次沟通完成任务,Cursor需8次。详细分析两者差异,帮你选择最适合的AI编程工具。
产品体验Cursor云Agent演示:打通软件开发全链路瓶颈
深度解析Cursor云Agent最新Demo,展示如何通过云端虚拟机、自动测试产物和全链路控制平面,系统性消除软件开发生命周期中的人类瓶颈,让Agent自主运行、人按需介入。
产品体验Cursor 3.0深度解析:多Agent并行、Design Mode与Best-of-N模型对比
Cursor 3.0正式发布,从AI辅助编程工具进化为Agent舰队指挥中心。本文详解多智能体并行、Design Mode可视化编辑、Best-of-N多模型择优等核心功能,解读AI编程新范式。