Manus vs Google Deep Research vs Flowith：AI智能体课件生成实测对比

引言

随着AI智能体（Agent）产品的井喷式发展，越来越多的工具开始具备「自主调研 + 内容生成」的能力。AI智能体不同于传统的聊天机器人，它具备自主规划、工具调用和多步骤执行的能力。AI智能体（Agent）的概念源自人工智能领域的BDI（Belief-Desire-Intention）模型，强调自主性、反应性和社会性。与传统聊天机器人基于「输入-输出」的单轮或多轮对话模式不同，AI智能体引入了ReAct（Reasoning + Acting）范式——模型在每一步都先进行推理（Reasoning），再决定下一步行动（Acting），形成一个观察-思考-行动的循环。

一个典型的AI智能体架构包含四个核心模块：规划器（Planner） 负责将复杂任务拆解为可执行的子步骤；工具调用层（Tool Use） 负责调用搜索引擎、代码执行器、文件生成器等外部工具；记忆模块（Memory） 负责在多步骤执行过程中保持上下文一致性；输出层（Output） 负责将结果整合为用户需要的格式。其中，工具调用层的实现方式各有不同——OpenAI的Function Calling、Anthropic的Tool Use以及Google的Gemini Function Calling都是当前主流的技术方案。记忆模块则通常分为短期记忆（当前会话的上下文窗口）和长期记忆（通过向量数据库持久化存储的历史信息），两者的协同决定了智能体在长任务链中的一致性表现。正是这些模块的实现差异，决定了不同AI智能体在面对同一任务时的表现差距。

本文基于一位B站创作者的实测视频，对比了三款热门AI智能体产品——Manus、Google Deep Research 和 Flowith，用同一条提示词让它们完成「生成Kafka教学课件和解说稿」的任务，看看谁才是真正的效率之王。

测试设计：统一提示词，三款AI智能体公平对决

为了保证对比的公平性，测试者对三款产品使用了完全相同的提示词：

请帮我输出一篇关于Kafka的核心原理和应用实践的教程，并产出以下内容：

用HTML制作一份精美的教学课件，内容包含Kafka的核心原理和应用实践；

产出一份解说稿，以纯文本的形式输出。

为什么选择Kafka作为测试主题

Apache Kafka是由LinkedIn最初开发、后捐赠给Apache软件基金会的分布式事件流平台。它的核心设计理念是高吞吐量、低延迟的消息传递，广泛应用于实时数据管道、流处理和事件驱动架构中。Kafka采用发布-订阅模型，通过Topic（主题）、Partition（分区）、Broker（代理节点）和Consumer Group（消费者组）等核心概念实现消息的高效分发。

Kafka之所以是理想的测试选题，还在于其技术生态的纵深。除了核心的消息队列功能外，Kafka生态还包括Kafka Streams（流处理库）、Kafka Connect（数据集成框架）、Schema Registry（数据格式管理）以及ksqlDB（流式SQL引擎）。其底层存储机制基于分区日志（Partitioned Log），采用顺序写入和零拷贝（Zero-Copy）技术实现极高的I/O性能，单集群可支持每秒数百万条消息的吞吐。理解这些概念需要跨越分布式系统、操作系统、网络协议等多个知识领域，这对AI智能体的知识覆盖广度和深度都提出了很高的要求。

在大数据和微服务架构盛行的今天，Kafka已成为企业级数据基础设施的标配组件，被Netflix、Uber、LinkedIn等公司大规模使用。正因为Kafka的技术体系庞大且概念众多，它成为了测试AI智能体内容生成能力的理想选题——既需要准确理解技术原理，又需要清晰的结构化表达。

任务拆解

这个任务其实并不简单，它要求AI智能体完成以下几个步骤：

信息调研：从互联网搜索Kafka相关技术资料
内容整理：提炼核心原理和应用实践
格式化输出：生成结构化的HTML课件
二次创作：根据课件撰写配套解说稿

这是一个典型的复合型任务（Compound Task）——需要AI在单次交互中完成多个相互关联的子任务，且子任务之间存在依赖关系。与简单的问答不同，复合型任务要求AI具备任务分解能力（将大任务拆成小步骤）、上下文传递能力（前一步的输出作为后一步的输入）以及多格式输出能力（同时生成HTML、纯文本等不同格式）。这类任务之所以难，是因为任何一个环节的失误都会级联影响后续步骤的质量，非常考验AI智能体的规划能力和执行质量。

Manus实测：中规中矩，任务完成但缺乏亮点

Manus作为前段时间爆火的AI智能体产品，在这次测试中的表现可以用「及格」来形容。

Manus调研Kafka内容的过程

从回放功能可以看到，Manus的工作流程比较清晰：先调研国内网站上关于Kafka的技术文档，先看核心原理，再看应用实践，数据来源主要是国内的博客网站。之后生成HTML格式的教学课件，最后根据课件生成解说稿。

Manus课件质量评价

Manus生成的教学课件全部以文字形式展示，没有任何可视化元素。作为教学课件来说，这种纯文字的呈现方式并不友好——文字量过大，缺乏分块和视觉层次。

让AI生成可直接使用的HTML教学课件，实际上涉及内容组织和前端呈现两个维度的能力。在内容组织层面，AI需要将技术知识按照教学逻辑进行分层——从概念引入到原理讲解再到实践案例，形成循序渐进的知识结构。在前端呈现层面，AI需要生成语义正确的HTML标签、合理的CSS样式以及响应式布局，确保课件在浏览器中能够正常渲染且视觉效果良好。

从技术角度看，让AI生成高质量的HTML教学课件本质上是一个跨模态生成问题。模型需要同时处理三个层次的任务：语义层（HTML5语义标签如<section>、<article>、<figure>的正确使用）、样式层（CSS的Flexbox或Grid布局、响应式媒体查询、字体排版的垂直韵律）以及交互层（可能涉及的JavaScript动画或导航逻辑）。当前主流的大语言模型在代码生成基准测试（如HumanEval、MBPP）上表现优异，但这些测试主要评估逻辑正确性，而非视觉美学。像reveal.js、Slidev等专业演示框架的模板化方案可以部分解决这一问题，但要求AI智能体具备调用这些框架的工具链支持。Manus在内容组织上做到了基本覆盖，但在前端呈现上明显不足，导致课件虽然内容完整，但视觉体验欠佳。

Manus解说稿质量评价

解说稿的内容基本跟随课件结构，算是比较完整的输出。整体而言，Manus完成了任务，但输出结果没有什么亮点，属于「能用但不惊艳」的水平。

Google Deep Research实测：任务未完成，输出格式混乱

作为谷歌推出的深度研究工具，Google Deep Research在这次测试中的表现令人意外地差。

Google Deep Research的输出界面

流程规划看似合理

Deep Research制定的流程看起来是合理的：搜索资料 → 整理资料 → 生成HTML课件 → 根据HTML生成解说稿。但实际执行效果与规划严重脱节。

三个致命问题

HTML输出格式混乱：虽然输出中包含了一些HTML标签，但整体格式是乱的，根本无法作为正常的教学课件使用。
解说稿缺失：Deep Research直接遗漏了解说稿的输出，任务没有完成。这恰好印证了复合型任务的级联效应——当HTML生成环节出现问题后，后续依赖该输出的解说稿生成也随之失败。
数据来源偏差：所有采集的资料都来自国外网站，虽然搜索范围很广，但对于中文教学场景来说，这些英文资料的适用性存疑。

总结来说，Google Deep Research在这次测试中任务未完成、输出质量差，排名垫底。这也说明Deep Research更擅长深度调研报告类任务，而非这种需要格式化输出的复合型任务。Google Deep Research的核心优势在于其强大的搜索能力和信息综合能力，它能够在海量网页中提取关键信息并生成结构化的研究报告，但当任务要求从「理解内容」跨越到「精美呈现」时，它的工具链支撑明显不足。

Flowith实测：输出最优，课件结构清晰

Flowith是一款相对低调的AI智能体产品，测试者最初是在Manus爆火时发现的一个平替方案。但在这次对比中，它的表现反而最为出色。

Flowith的工作流程界面

Flowith的工作流程

Flowith的执行逻辑非常清晰：

搜索Kafka核心原理相关资料
搜索Kafka应用实践相关资料
分析整理，生成HTML格式课件
根据课件生成解说文档

数据来源包括Kafka官网等国外权威网站，采集的资料内容非常详尽。值得注意的是，Flowith在数据采集策略上采用了国内外综合的方式，既获取了Apache Kafka官方文档等一手权威资料以确保技术准确性，又参考了国内技术社区的中文内容以保证表达的本地化。

三款产品在数据采集环节的差异，本质上反映了各自搜索增强生成（Retrieval-Augmented Generation, RAG） 策略的不同。RAG的核心思想是在生成前先检索相关文档，将检索到的内容作为上下文注入提示词中，从而减少模型的幻觉（Hallucination）并提升事实准确性。RAG流程通常包括查询改写（Query Rewriting）、文档检索（Document Retrieval）、相关性排序（Re-ranking）和上下文压缩（Context Compression）四个步骤。不同产品在查询改写策略（是否将原始问题拆分为多个子查询）、搜索引擎选择（Google、Bing还是专用API）、以及检索结果的融合方式上的差异，直接导致了最终内容质量的分化。Flowith这种平衡策略在很大程度上提升了最终输出的质量和适用性。

Flowith课件质量评价

Flowith生成的教学课件效果

Flowith生成的教学课件是三款产品中最规范的。每个知识点、每个功能点都做了分块处理，结构层次分明，作为教学课件来说是比较理想的输出结果。

不过也存在一些小问题：排版上有些地方略显凌乱。测试者认为，如果换一个更擅长写前端代码的模型来生成HTML，效果应该会更好。当前大语言模型在代码生成方面已有显著进步，但将内容理解与前端美学结合仍是一个挑战——模型能够生成语法正确的HTML和CSS，但在视觉设计的审美判断、间距比例的微调、色彩搭配的协调等方面仍然依赖于训练数据中的模式，缺乏真正的设计直觉。

Flowith解说稿质量评价

解说稿同样做了分块处理，内容完整，与课件结构对应良好。

三款AI智能体综合对比总结

评价维度	Manus	Google Deep Research	Flowith
任务完成度	✅ 完成	❌ 未完成（缺解说稿）	✅ 完成
课件质量	中等（纯文字）	差（格式混乱）	较好（分块清晰）
解说稿质量	中等	缺失	较好
数据来源	国内博客	国外网站（范围广）	国内外综合
流程透明度	有回放	无回放	有详细步骤
综合排名	🥈 第二名	🥉 第三名	🥇 第一名

数据来源策略的深层影响

AI智能体在执行调研任务时，数据来源的选择直接影响最终输出的质量和适用性。本次测试中，Manus主要采集国内博客内容，优势是贴近中文用户的表达习惯和使用场景，但博客质量参差不齐，可能引入不准确的信息；Google Deep Research主要采集国外网站，虽然能获取到Kafka官方文档等权威一手资料，但英文资料在中文教学场景中需要额外的翻译和本地化处理；Flowith综合采集国内外资料，兼顾了权威性和本地化。这种差异反映了不同产品在搜索策略和信息融合能力上的设计取向，也提醒用户在选择工具时需要考虑目标受众的语言和文化背景。

三个关键发现

第一，产品知名度≠实际能力。 Google Deep Research和Manus的知名度远高于Flowith，但在这个具体任务上，低调的Flowith反而表现最好。选择AI智能体时，不能只看品牌光环。

第二，复合型任务是AI智能体的试金石。 单纯的问答或搜索，大多数AI都能胜任。但当任务涉及多步骤规划、多格式输出时，产品之间的差距就会被放大。复合型任务要求AI智能体的规划器、工具调用层、记忆模块和输出层四个核心模块协同工作，任何一个模块的短板都会成为整体表现的瓶颈。

本文的测试方法虽然直观有效，但也引出了一个行业性问题：如何系统化地评估AI智能体的能力？目前学术界和工业界已提出多个评估基准，如GAIA（General AI Assistants）评估智能体在真实世界任务中的表现，WebArena评估智能体在网页环境中的操作能力，SWE-bench评估智能体解决真实软件工程问题的能力。这些基准通常从任务完成率、步骤效率、输出质量和鲁棒性四个维度进行评分。然而，针对复合型内容生成任务（如本文测试的课件+解说稿场景），目前尚缺乏标准化的评估框架，这也是AI智能体领域亟待完善的方向。

第三，格式化输出仍是AI智能体的短板。 即便是表现最好的Flowith，在HTML排版上也存在不足。这提示我们，当前AI智能体在「内容理解」上已经不错，但在「精美呈现」上还有提升空间。未来，随着多模态模型的发展和专门针对前端生成的微调技术的成熟，这一短板有望逐步得到改善。

写在最后：选AI工具别盲目跟风

这次实测给我们一个重要启示：没有万能的AI工具，只有最适合特定场景的工具。 如果你的需求是生成结构化的教学内容，Flowith目前看来是一个值得尝试的选择；如果只是需要快速调研和总结，Manus依然是不错的选项；而Google Deep Research可能更适合纯文本的深度研究报告场景。

值得一提的是，AI智能体领域正处于快速迭代期，各产品的能力边界每隔几周就可能发生变化。本文的测试结果反映的是特定时间点、特定任务下的表现，不代表这些产品的全部能力。建议大家在选择AI智能体时，先用自己的实际任务做一轮测试，而不是盲目跟风。毕竟，能帮你真正提升效率的，才是你的「效率之王」。

核心要点

三款AI智能体（Manus、Google Deep Research、Flowith）使用相同提示词生成Kafka教学课件和解说稿进行对比测试
Flowith表现最优，课件结构清晰、分块合理，任务完成度最高
Google Deep Research表现最差，HTML输出格式混乱且遗漏了解说稿，任务未完成
Manus中规中矩，内容完整但课件全为纯文字形式，缺乏视觉层次
产品知名度不等于实际能力，选择AI工具应以实际任务测试为准