DeepSeek+RAGFlow本地部署AI知识库教程（2025最新）

为什么需要本地部署AI知识库？

很多人的第一反应是：直接用网页版DeepSeek上传文件不就行了？但在实际使用中，网页版存在三个核心痛点：

数据隐私无法保证。 当你在网页端上传本地知识库文件时，数据会提交到DeepSeek的服务端。对于企业级应用，尤其是涉及法律、医疗、金融等敏感领域的私有数据，这是完全不可接受的。

文件上传和算力受限。 网页端虽然免费，但不支持无限制上传，文件较大时算力瓶颈会导致响应速度明显下降，严重影响工作效率。

上下文管理困难。 每次对话都需要重新上传文件，而知识库往往需要实时更新，网页端无法提供有效的知识扩展机制。

本地部署则完美解决了这些问题——所有数据存储在本地，不会上传到云端，同时可以灵活构建和更新个性化知识库。

RAG技术核心原理：让大模型不再"胡说八道"

大模型为什么需要RAG？

大模型本身存在几个固有缺陷：

知识局限性：模型基于公开数据训练，缺少垂直领域和企业私有数据
知识时效性不足：模型训练完成后，所有后续产生的新数据它都不知道
幻觉问题：基于概率推理的本质决定了它会在不擅长的领域"一本正经地胡说八道"

RAG（Retrieval Augmented Generation，检索增强生成）正是为解决这些问题而生的技术。RAG最初由Meta AI研究团队于2020年在论文《Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks》中提出，用于解决开放域问答任务中的知识覆盖问题。随着ChatGPT等大语言模型的爆发式普及，RAG迅速成为企业级AI应用的核心架构范式——它不改变模型本身，而是在推理阶段动态注入外部知识，兼顾了灵活性与准确性。

RAG的三步工作流程

RAG的核心流程可以用三个词概括：检索（Retrieve）→ 增强（Augment）→ 生成（Generate）。

检索：用户提出问题后，系统先从外部知识库中检索与问题相关的内容
增强：将检索到的内容与用户问题组合，一起发送给大模型
生成：大模型基于完整的上下文和问题进行回答，生成更准确、更有依据的内容

在检索环节的底层，RAG系统依赖向量数据库作为知识存储引擎。与传统关系型数据库的精确关键词匹配不同，向量数据库通过近似最近邻（ANN）算法实现毫秒级语义相似度检索——即便用户的提问措辞与文档原文完全不同，只要语义相近，系统依然能精准召回相关内容。常见的向量数据库包括Milvus、Weaviate、Qdrant、Chroma等，RAGFlow内部默认集成了Elasticsearch和Infinity作为向量存储后端，用户无需单独部署。

RAG技术与模型微调的区别对比

RAG vs 模型微调：开卷考试 vs 考前复习

一个非常形象的比喻：模型微调就像考前复习——提前准备好数据让模型学习，考试时凭记忆作答；RAG就像开卷考试——看到题目后直接查找相关资料再回答。

如果你的需求对知识实时性要求较高，微调并不合适，因为频繁微调的成本太高。RAG则可以随时更新知识库，无需重新训练模型。

Embedding向量化：让机器理解语义的关键

在RAG的检索环节中，系统并不是逐字匹配，而是进行语义搜索。这就需要Embedding（向量化）技术——通过专门的Embedding模型将文本转换为向量，再通过余弦相似度或欧式距离等方法计算语义相似度。

Embedding技术的思想源于2013年Google提出的Word2Vec模型，核心在于将离散的文本符号映射到连续的高维向量空间，使语义相近的文本在向量空间中距离更近。现代Embedding模型通常基于BERT或其变体架构，输出768维至4096维不等的稠密向量。BGE-M3是智源研究院开源的多语言、多粒度、多功能Embedding模型，支持超过100种语言，在中文语义检索任务上表现尤为突出，是目前RAG场景下最主流的中文Embedding模型之一。

因此，实际应用中我们需要两种模型：Chat模型（负责对话生成）和Embedding模型（负责文本向量化）。常用的Embedding模型包括RAGFlow自带模型、BGE-M3、千问3向量化模型等。

Ollama安装与DeepSeek模型下载

第一步：安装Ollama

Ollama是本地运行大模型的工具，适合个人用户使用（企业用户可考虑Xinference，功能更完善）。Ollama底层基于llama.cpp实现CPU/GPU混合推理，支持GGUF格式的量化模型。量化技术通过将模型权重从FP32/FP16压缩为INT8/INT4等低精度格式，可将模型体积缩减50%-75%，使普通消费级硬件也能流畅运行数十亿参数的大模型——这也是个人用户能够在本地跑起DeepSeek的核心技术基础。

打开Ollama官网，点击Download按钮，根据操作系统选择对应版本
安装过程非常简单，一路"下一步"即可
安装完成后，在命令行输入 ollama version 验证安装是否成功

Ollama已下载的模型列表

第二步：下载DeepSeek R1模型

在Ollama官网搜索"DeepSeek-R1