最近有一个开源项目在GitHub上特别火,叫RAGFlow,5万多Star,还一度冲上了GitHub趋势榜第一名。今天我们就来好好聊聊这个项目。我先简单说一下背景,RAGFlow是英飞流InfiniFlow开源的一个RAG引擎,但它其实不只是一个知识库工具,还集成了AI Agent的能力。我们请到的嘉宾对这个项目有比较深入的研究,先给大家讲讲,RAGFlow跟市面上其他RAG工具最大的区别在哪?"},
{"speaker": "guest", "text": "嗯,我觉得最核心的区别有两点。第一是它的文档解析精度,第二是它的Agent工作流编排能力。很多RAG工具在处理文档的时候,就是简单地按字数或者段落来切分,但RAGFlow用了一种叫"深度文档理解"的技术,它能识别文档的标题层级、表格结构、甚至页眉页脚,然后基于这些版式信息来做智能分块。你可以理解为,它不是在"切"文档,而是在"读懂"文档之后再拆分。这个差异在处理复杂PDF的时候特别明显,比如带大量表格的投资者手册,效果比同类工具好很多。"},
{"speaker": "host", "text": "这个确实很关键,因为RAG系统最终回答的质量,很大程度上取决于前面分块的质量。那我们先从部署开始聊吧,RAGFlow的部署方式其实挺友好的?"},
{"speaker": "guest", "text": "对,非常友好。它完全基于Docker容器化部署,一条命令就能把整个技术栈拉起来。你不需要自己去装Redis、MySQL、Elasticsearch这些中间件,Docker Compose会帮你全部搞定。执行一个docker compose up -d,它就会启动五个容器,各司其职。"},
{"speaker": "host", "text": "五个容器,能简单说说各自干什么的吗?"},
{"speaker": "guest", "text": "好,Redis负责会话缓存和热点数据加速,降低重复查询的延迟;MinIO是对象存储,专门存用户上传的PDF、Word这些原始文件;MySQL存结构化的业务数据,比如用户账号、知识库配置;Elasticsearch是检索的核心,同时承担全文检索和向量检索;最后是RAGFlow Server本身,协调所有组件完成整个流程。启动成功后,浏览器访问127.0.0.1就能打开界面了,注册一下就能用,数据全部存在本地。"},
{"speaker": "host", "text": "数据全部在本地这一点其实对企业用户来说很重要,特别是金融、政府这种对数据主权有严格要求的场景。那部署好之后,下一步应该是配置模型对吧?"},
{"speaker": "guest", "text": "没错。RAGFlow本身不自带大模型,你需要接入外部的模型服务。它支持两种方式,一种是本地部署的模型,另一种是在线服务商。比较推荐的一个方式是用硅基流动SiliconFlow,它是国内的AI模型推理平台,一个API Key就能访问DeepSeek、Qwen、ChatGLM等各种模型,按Token计费,国内访问延迟也低。"},
{"speaker": "host", "text": "那具体需要配置哪几个模型呢?"},
{"speaker": "guest", "text": "主要是三个。第一个是对话模型,推荐用DeepSeek V3,负责理解用户意图、生成回答;第二个是嵌入模型,这个非常关键,它把文本转化成高维向量,语义相近的内容在向量空间里距离就更近,检索的时候就是靠这个来匹配的;第三个是图片转文字模型,用来识别文档里的图表、扫描件,确保这些非文本内容也能被检索到。其实你可以这样理解,嵌入模型决定了"找得准不准",对话模型决定了"答得好不好",图片模型决定了"看得全不全"。"},
{"speaker": "host", "text": "这个类比很清楚。模型配好之后就可以建知识库了,这部分体验怎么样?"},
{"speaker": "guest", "text": "体验很流畅。创建知识库、上传文档、点解析,三步就搞定。我之前测试过一份90多页的PDF投资者手册,RAGFlow解析完之后拆成了100多条结构化的知识条目,而且每一条都能对应回原始文档的具体位置。这个可溯源的机制特别好,你能看到AI的回答到底引用了哪段原文,不是凭空编的。"},
{"speaker": "host", "text": "对,这个可溯源性在企业场景里太重要了。在金融、医疗、法律这些领域,AI给出的每个建议都得有据可查,不然谁敢用?那我们来聊聊RAG的技术原理,帮听众建立一个整体的认知框架。"},
{"speaker": "guest", "text": "好。RAG全称是检索增强生成,2020年Meta AI提出的,核心目的是解决大模型的两个硬伤:一个是知识有截止日期,一个是"幻觉"问题,就是模型会一本正经地胡说八道。RAG的工作流程分三步:第一步是索引,把文档切分成语义片段,转成向量存进数据库;第二步是检索,用户提问的时候,把问题也转成向量,通过相似度算法找到最相关的文档片段;第三步是生成,把找到的片段塞进提示词里,交给大模型生成回答。RAGFlow在第一步做了大量优化,就是我前面说的深度文档理解,这是它精度领先的关键。"},
{"speaker": "host", "text": "明白了。那知识库搭好之后,最简单的用法就是创建聊天助理对吧?"},
{"speaker": "guest", "text": "对,这是最基础的用法。新建一个助理,关联知识库,就能开始问答了。但其实我更想聊的是RAGFlow的Agent功能,这才是它真正让人惊艳的部分。"},
{"speaker": "host", "text": "嗯,我也觉得Agent是这个产品的杀手锏。给大家解释一下,Agent跟普通聊天助理最大的区别是什么?"},
{"speaker": "guest", "text": "普通聊天助理就是"你问我答",流程是固定的。但Agent有自主决策能力,它能根据用户的输入动态决定下一步该干什么——是查知识库、调外部API,还是让用户补充信息。RAGFlow提供了一个可视化的画布,你可以像搭积木一样拖拽组件来编排工作流。它本质上是一个有向无环图的编排系统,每个节点是一个处理步骤,节点之间的连线定义了数据怎么流转、在什么条件下走哪个分支。"},
{"speaker": "host", "text": "能举个具体例子吗?比如客服场景是怎么编排的?"},
{"speaker": "guest", "text": "好,一个典型的客服Agent流程是这样的:用户提问进来,先经过一个"问题优化"节点,把口语化的表述转成更精确的查询语句;然后进入"意图分类",判断用户是想查联系方式、投诉、还是问产品相关的问题;如果是产品问题,就路由到知识库检索节点去找答案;最后基于检索结果生成回复。你看,知识库只是整个流程中的一个环节。你还可以接入多个知识库,甚至调用第三方API,实现端到端的业务自动化。而且每个节点都可以独立调试和替换,模块化程度非常高。"},
{"speaker": "host", "text": "最后还有一个很实用的功能,就是Agent可以直接嵌入到网站里?"},
{"speaker": "guest", "text": "对,这个太实用了。Agent调试好之后,RAGFlow会生成一段HTML嵌入代码,你把它复制到自己的网站页面里,用户看到的就是一个普通的聊天窗口,但背后跑的可能是一套非常复杂的工作流——意图分类、多知识库检索、条件分支,全部自动执行。从开发到上线,门槛真的很低。"},
{"speaker": "host", "text": "总结一下的话,RAGFlow的核心优势其实就是四个词:解析精准、知识可溯源、Agent工作流强大、部署简单安全。对个人用户来说,它能帮你快速搭建知识库和智能助理;对企业来说,Agent能力加上API接口,基本上就是一套生产级AI应用的基础设施了。如果你正在找开源的RAG方案,这个5万Star的项目确实值得花时间去体验一下。"},
{"speaker": "guest", "text": "嗯,而且它还在快速迭代,社区也很活跃。我觉得特别适合那些想在自己业务里落地AI能力、但又不想把数据交给第三方的团队,数据全在本地,这个安全感是很多云端方案给不了的。"}
],