Qwen3.5+RAGFlow+Ollama本地AI知识库搭建实战指南

为什么需要本地AI知识库？

当前大语言模型虽然能力强大，但存在几个核心痛点：知识截止日期限制、本地模型知识体系有限、AI幻觉问题，以及企业保密场景下无法使用云端服务。

所谓AI幻觉（Hallucination），是指大语言模型生成看似合理但实际上不正确或无中生有的内容。这源于LLM的本质——它是一个概率模型，基于训练数据中的统计规律预测下一个token，而非真正"理解"事实。当模型遇到训练数据中未覆盖或覆盖不足的问题时，它仍会自信地生成流畅的回答。这个问题在专业领域尤为严重，可能导致错误的决策依据。

基于这些原因，搭建一个本地RAG（检索增强生成）知识库成为刚需。RAG（Retrieval-Augmented Generation）是2020年由Facebook AI Research提出的技术框架，其核心思想是在大语言模型生成回答之前，先从外部知识库中检索相关文档片段，将其作为上下文注入到提示词中，从而让模型基于真实数据生成回答。这种方式相比单纯微调模型，具有成本低、更新快、可追溯的优势。RAG的工作流程通常分为三步：文档切片与向量化存储、用户查询的语义检索、检索结果与问题的联合生成。通过提供真实文档作为上下文，RAG将模型的生成范围约束在可验证的信息内，从而大幅降低幻觉发生的概率。

bilibili source

RAGFlow是GitHub上一个优秀的开源RAG项目，它支持处理TXT、PDF、JSON等多种文件格式，内置DeepDocs项目的OCR能力，能对数据进行智能切片和索引，还能像ComfyUI那样搭建自动化工作流。更重要的是，它能精确指出回答内容的出处——来自哪篇文章的哪段话。这种可追溯性是RAG相比纯LLM对话最大的优势之一，用户可以验证AI回答的可靠性。

部署前的准备工作

硬件与软件要求

一般来说，能流畅运行Windows 10/11的硬件就能满足基本需求。如果需要运行较大的LLM模型（如7B参数以上），建议配备16GB以上内存和支持CUDA的NVIDIA显卡，GPU显存越大能加载的模型越大，推理速度也越快。软件层面需要准备：

Docker Desktop：作为容器化运行环境，RAGFlow及其依赖的数据库等服务都运行在Docker中。Docker是一种操作系统级别的虚拟化技术，它将应用程序及其所有依赖打包成标准化的"容器"，确保在任何环境中都能一致运行。与传统虚拟机不同，Docker容器共享宿主机的操作系统内核，因此启动速度快、资源占用少。Docker Compose则是用于定义和运行多容器应用的工具，通过一个YAML配置文件即可编排多个服务（如数据库、应用服务器、缓存等）的启动顺序和网络关系。
Ollama：用于部署Embedding模型。Ollama是一个轻量级的本地大模型运行框架，支持一键下载和运行各种开源模型，自动处理模型量化、GPU加速等底层细节。
LM Studio：用于部署LLM大语言模型（也可全部用Ollama）。LM Studio提供了图形化界面，方便用户浏览、下载和测试各种开源模型，同时内置了兼容OpenAI API格式的本地服务器功能。
WSL：Windows子系统Linux，Docker运行的基础。WSL（Windows Subsystem for Linux）是微软在Windows 10/11中提供的Linux兼容层，WSL2采用了轻量级虚拟机架构，运行真正的Linux内核。Docker Desktop在Windows上依赖WSL2作为后端引擎，因为Docker本身是基于Linux容器技术（namespaces、cgroups）构建的。通过WSL2，Docker容器可以在Windows上以接近原生Linux的性能运行，同时用户无需安装完整的Linux发行版。

理解LLM与Embedding的区别

在部署之前，需要理解LLM和Embedding这两个核心概念：

LLM（大语言模型）：负责对话、处理文字上下文、输出自然语言回答，如Qwen3.5。LLM基于Transformer架构，通过海量文本数据训练，学会了语言的统计规律和世界知识。它接收一段文本输入，逐token生成回答，参数量从几十亿到数千亿不等，参数越多通常能力越强但对硬件要求也越高。
Embedding（嵌入模型）：将输入文字转换为向量表示，方便计算机存储、检索和理解语义相似度。Embedding模型将文本映射为高维向量（通常是768维或1024维的浮点数数组），语义相近的文本在向量空间中距离更近。例如，"汽车"和"轿车"的向量距离会很近，而"汽车"和"苹果"的距离则较远。向量数据库专门用于存储和高效检索这些向量，检索时通过余弦相似度或欧氏距离等算法快速找到最相关的文档片段。

两者缺一不可——Embedding负责"找到相关内容"，LLM负责"组织语言回答"。在RAG流程中，用户提问首先经过Embedding模型转换为向量，然后在向量数据库中检索最相似的文档片段，最后将这些片段连同原始问题一起送入LLM，由LLM生成最终的自然语言回答。

Docker环境搭建

安装Docker Desktop

前往Docker官网下载Windows AMD64版本
右键以管理员身份运行安装程序
如遇权限报错，需对C盘Program Files文件夹赋予当前用户的读写执行权限

安装完成后，Docker Desktop会在系统托盘显示图标，绿色状态表示Docker引擎已正常运行。首次启动可能需要几分钟初始化WSL2后端。

开启虚拟化支持

在Windows功能中开启以下两项：

虚拟化平台支持（Hyper-V相关组件，为WSL2提供虚拟化基础设施）
适用于Linux的Windows子系统（WSL核心组件）

注意：部分电脑可能还需要在BIOS中开启CPU虚拟化技术（Intel VT-x或AMD-V），否则WSL2无法正常工作。

然后在命令行执行wsl --install安装WSL。如果出现报错，60秒内按键盘即可恢复正常下载。WSL默认会安装Ubuntu发行版，安装完成后重启电脑使设置生效。

部署RAGFlow服务

下载与启动RAGFlow

# 克隆项目（网络不佳可直接下载ZIP）
git clone https://github.com/infiniflow/ragflow.git

# 进入Docker目录
cd ragflow/docker

# 启动服务（确保Docker Desktop已运行）
docker compose up -d

Docker会根据compose配置文件自动下载相关依赖。RAGFlow的Docker Compose文件通常会编排多个服务容器，包括：RAGFlow主应用、Elasticsearch（用于全文检索和向量存储）、MySQL或PostgreSQL（用于存储元数据和用户信息）、Redis（用于缓存和任务队列）等。这些服务通过Docker内部网络互相通信，对外只暴露RAGFlow的Web界面端口（默认通常是80或9380）。

配置文件中的预定义变量可在同级目录的.env文件中查看和修改。常见的可配置项包括端口映射、数据存储路径、内存限制等。有意思的是，默认的RAGFlow镜像不包含Embedding模型，需要单独部署。

部署大模型服务

LLM部署（使用LM Studio）：

下载并安装LM Studio
搜索并下载Qwen3.5模型（建议根据显存大小选择合适的量化版本，如Q4_K_M量化可在8GB显存下运行7B模型）
在后台开启API服务，使其他程序可通过API调用。LM Studio的API服务兼容OpenAI的API格式，这意味着任何支持OpenAI API的应用都可以无缝对接。

Embedding部署（使用Ollama）：

# 在CMD中拉取Embedding模型
ollama pull nomic-embed-text

# 查看已下载的模型
ollama list

nomic-embed-text是一个高质量的开源Embedding模型，支持8192 token的上下文长度，生成768维的向量表示。对于中文场景，也可以考虑使用bge-m3或mxbai-embed-large等对中文支持更好的模型。Ollama默认在11434端口提供API服务。

RAGFlow配置与使用

连接模型服务

启动RAGFlow后注册账号（信息可随意填写，因为是本地部署，无需真实邮箱验证），然后在右上角添加本地大模型：

添加LLM：

搜索"OpenAI API Compatible"格式（这是一种通用的API协议标准，几乎所有本地模型服务工具都支持这种格式，包括LM Studio、Ollama、vLLM等）
输入LM Studio的端口号和API接口地址（默认为http://localhost:1234/v1）
模型类型选择Chat
API Key可随意填写（本地服务通常不验证API Key，但字段不能为空）

添加Embedding：

下拉找到Ollama选项
由于RAGFlow运行在Docker网段中，需要使用物理机的局域网IP（通过ipconfig查看），而非容器内部的localhost
将URL中的IP地址改为本机局域网IP（例如192.168.1.100:11434）

Docker网络配置踩坑解决

这是新手最容易踩坑的地方：RAGFlow处于Docker虚拟网络中，访问宿主机上的Ollama服务时，不能使用127.0.0.1或localhost，必须使用宿主机在局域网中的实际IP地址。

这背后的技术原因是：Docker容器拥有独立的网络命名空间（Network Namespace），容器内的localhost指向的是容器自身，而非宿主机。Docker默认创建一个名为bridge的虚拟网桥，容器通过这个网桥与外部网络通信。当容器需要访问宿主机上的服务时，必须使用宿主机在物理网络中的IP地址，或者使用Docker提供的特殊DNS名称host.docker.internal（在Docker Desktop for Windows/Mac中可用）。如果使用host.docker.internal仍然不通，则回退到使用ipconfig查看到的局域网IP地址是最可靠的方案。

创建知识库与检索测试

创建知识库，根据需求选择OCR功能（OCR即光学字符识别，可将扫描版PDF或图片中的文字提取出来，对于学术论文的图表识别尤为有用）
上传文件（支持TXT、PDF等格式）
关键步骤：点击"解析"按钮，文件才能被索引。解析过程包括：文档格式解析→文本提取→智能分块（Chunking）→每个分块通过Embedding模型转换为向量→存入向量数据库。分块策略会影响检索质量，RAGFlow提供了多种分块方式（如按段落、按固定长度、按语义等）。
在对话界面选择关联的知识库
输入问题测试检索效果

实测中，开启深度思考模式后，RAGFlow能够成功从知识库中提取相关内容，并在回答末尾标注文章索引和内容出处。这种引用标注机制让用户可以快速验证回答的准确性，点击引用即可跳转到原文对应位置。

实用建议与注意事项

代理设置：Docker下载依赖时如果失败，建议配置网络代理。可以在Docker Desktop的Settings → Resources → Proxies中设置HTTP/HTTPS代理地址。
分布式部署：除RAGFlow外，Ollama等工具可部署在不同物理机上，通过API互联，降低单机性能压力。例如，可以将Embedding模型部署在一台配备GPU的服务器上，RAGFlow部署在另一台机器上，通过局域网API调用实现协同工作。这种架构在团队协作场景中尤为实用。
模型选择：Ollama支持多开大模型，完全可以不依赖LM Studio，统一用Ollama管理所有模型。选择模型时需要权衡性能与资源：7B参数模型适合8GB显存，14B适合16GB显存，更大的模型可能需要多卡或纯CPU推理（速度会显著下降）。
文件解析：上传文件后务必手动点击解析，否则内容不会被索引到。解析进度可在界面上实时查看，大文件可能需要较长时间。
分块优化：检索质量很大程度上取决于文档分块策略。如果回答不够精确，可以尝试调整分块大小（chunk size）和重叠长度（overlap），一般建议chunk size在256-512 token之间，overlap为chunk size的10%-20%。

本地RAG知识库的核心价值在于：数据完全私有、可定制专业领域知识、消除AI幻觉（通过引用原文佐证）。对于科研工作者和企业用户来说，这是一个值得投入时间搭建的基础设施。随着开源模型能力的持续提升和RAG技术的不断演进，本地知识库的实用性只会越来越强。