Coze知识库搭建教程：RAG检索与工作流配置实战指南

文章正文

在企业实际业务中，很多问题的答案并不存在于互联网公开数据中——公司内部的人力资源管理制度、产品手册、运营规范等私有文档，大模型无法直接回答。这正是知识库（RAG）技术的核心价值。

本文以阿里巴巴人力资源管理制度为例，手把手讲解如何在 Coze 平台上创建知识库、配置智能体检索，以及通过工作流实现更灵活的知识问答。

我再问你一次

不应该

企业为什么需要知识库？大模型的局限与RAG方案

大模型的训练数据来源于互联网公开信息，对于企业内部的制度文档、产品资料、客户数据等私有内容，它无法直接给出准确回答。更麻烦的是大模型的"幻觉问题"——当它不知道答案时，可能会编造看似合理但实际错误的回复。

解决这个问题的核心方案就是建立知识库：

将企业私有文档上传到知识库
智能体在回答问题时，先去知识库中检索相关内容
基于检索到的真实信息生成回答

这种方式被称为 RAG（Retrieval-Augmented Generation，检索增强生成），是当前企业级 AI 应用最主流的技术路线。RAG 技术诞生于2020年Meta AI Research的论文《Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks》，其核心思想是将信息检索系统与生成式语言模型结合：在生成回答之前，先从外部知识库中检索与问题最相关的文本片段，再将这些片段作为上下文注入到大模型的提示词中，引导模型基于真实信息生成回答。这一机制从根本上解决了大模型的两大痛点：知识截止日期（训练数据有时效性）和幻觉问题（模型在不确定时倾向于编造答案）。RAG 的完整技术栈通常包括文档解析、文本分块、向量化嵌入、向量数据库存储、语义相似度检索等多个环节。

方式一：在Coze智能体中直接添加知识库

第一步：创建知识库

在 Coze 平台中，知识库支持三种类型：文本、表格和照片。对于 PDF 格式的人力资源管理制度文档，选择文本类型即可。

创建步骤如下：

点击左侧「创建知识库」，选择文本格式
为知识库命名（如"阿里巴巴"），填写描述（如"阿里巴巴人力资源管理制度"）
导入文件——支持本地文档、在线数据、公众号数据等多种来源
上传 PDF 文件后点击「下一步」

在分段策略配置环节，平台提供三种选项：

自动分段与清洗：适合大多数场景，系统自动将长文档切分为合适的段落
自定义分段：根据特殊符号手动定义分段规则
层级关系分段：按文档的标题层级进行分段

分段策略（Chunking Strategy）是 RAG 系统性能的关键决定因素之一。分段过大会导致检索到的内容包含大量无关信息，超出大模型的上下文窗口限制；分段过小则可能丢失语义完整性，导致答案片段化。自动分段通常基于句子边界、段落标记或固定 token 数量进行切割，并设置一定的重叠窗口（Overlap）以保证上下文连贯性。层级关系分段则借鉴了文档结构感知（Document-Aware Chunking）的思路，保留标题与内容的父子关系，在检索时能同时返回章节标题和具体内容，显著提升答案的可读性和准确性。对于结构化程度高的企业制度文档，层级分段往往能取得更好的效果。

一般选择自动分段即可满足需求。处理位置选择"共享"，然后等待系统完成分段处理。

第二步：将知识库添加到智能体

知识库创建完成后，可以通过右上角的「添加到智能体」按钮，将其关联到目标智能体。在智能体的编排界面中，通过「增加知识」模块也可以完成添加。

你可能没注意到，一个智能体可以添加多个知识库。如果公司有多份产品资料，可以分别创建知识库后全部添加进来。

实测效果

当提问"阿里人力资源管理愿景是什么"时，第一次可能未返回完整答案；但换一种问法"介绍一下阿里的人才管理理念"，智能体成功从知识库中检索到答案并输出。这说明提问方式会影响检索效果，实际使用中可以通过优化提示词来提升命中率。

这一现象的底层原因在于知识库检索的向量嵌入机制。文档被分段后，每个文本块会通过嵌入模型（如 text-embedding-ada-002 或 BGE 系列）转换为高维向量，存储在向量数据库中。当用户提问时，问题同样被转换为向量，系统通过计算余弦相似度等方式找出语义最接近的文本块。不同的表述会生成不同的向量，与文档内容的语义距离也会有所差异——这正是为什么优化提问方式（Prompt Engineering）在 RAG 应用中至关重要。

方式二：通过Coze工作流检索知识库

对于企业级应用，尤其是人力资源这类复杂部门，建议将知识检索封装为工作流，以获得更好的流程控制能力。

将知识检索封装为工作流，本质上是软件工程中"关注点分离"原则在 AI 应用中的体现。在生产级 RAG 系统中，工作流通常包含多个处理环节：查询改写（Query Rewriting，将用户口语化问题转化为更适合检索的标准表述）、混合检索（Hybrid Search，结合关键词检索与语义检索提升召回率）、重排序（Reranking，对检索结果进行二次排序筛选最相关内容）、答案生成与引用标注等。Coze 工作流的节点化设计使这些环节可以被独立配置和调试，相比直接挂载知识库的黑盒方式，工程师可以在每个节点观察中间输出，快速定位检索质量问题，也便于后续迭代优化。

搭建工作流的具体步骤

在智能体编排界面的「技能」模块中添加工作流，创建名称如"阿里巴巴"，描述为"了解阿里的人力资源管理制度和运营，赋能新人员工培训