Ollama教程：本地一键运行DeepSeek、Qwen等大模型完整指南

项目概览：Ollama 是什么

Ollama 是一个用 Go 语言编写的开源项目，专为在本地快速运行各种大语言模型而设计。项目在 GitHub 上已斩获超过 17 万颗 Star，拥有近 1.6 万次 Fork，是当前最受欢迎的本地大模型运行框架。

它的核心理念很直接：让运行大模型像执行一条命令一样简单。不管你想跑 Kimi-K2.5、GLM-5、MiniMax、DeepSeek、gpt-oss、Qwen 还是 Gemma，Ollama 都能帮你几分钟内完成部署。

github source: ollama/ollama: Get up and running with Kimi-K2.5, GLM-5, MiniMax, DeepSeek, gpt-oss, Qwen, Gemma and

Ollama 支持哪些主流模型

国产大模型全面覆盖

Ollama 的模型库在国产大模型方面表现尤为亮眼：

Kimi-K2.5：月之暗面最新发布的大模型，多项基准测试成绩突出
GLM-5：智谱 AI 最新一代通用语言模型
MiniMax：MiniMax 公司推出的大语言模型
DeepSeek：深度求索的开源模型系列，以高性价比闻名
Qwen：阿里通义千问系列，覆盖多种参数规格

国际知名模型

gpt-oss：开源社区的 GPT 类模型
Gemma：Google 发布的轻量级开源模型

这种广泛的模型支持让用户可以在同一个框架下自由切换、横向对比不同模型的效果，大幅降低了模型评估和选型的时间成本。

模型格式与量化技术

Ollama 能够高效运行如此多样的大模型，关键技术之一是采用 GGUF（GPT-Generated Unified Format）模型格式。GGUF 由 llama.cpp 项目的作者 Georgi Gerganov 设计，是一种专为 CPU 和混合 CPU/GPU 推理优化的模型存储格式。它支持多种量化精度（如 Q4_0、Q4_K_M、Q5_K_M、Q8_0 等），通过将模型权重从 FP16（16位浮点）压缩到 4-8 位整数，可以将模型体积缩小 2-4 倍，同时将内存占用大幅降低。例如，一个 70B 参数的模型在 FP16 下需要约 140GB 显存，而经过 Q4_K_M 量化后仅需约 40GB 内存，使得在消费级硬件上运行成为可能。量化虽然会带来一定的精度损失，但现代量化算法（如 GPTQ、AWQ、以及 llama.cpp 的 k-quant 系列）已经能将性能损失控制在可接受范围内。

Ollama 为什么这么火

极简的使用体验

Ollama 的设计哲学是"Get up and running"——快速启动，即刻推理。用户不需要折腾复杂的环境配置、依赖管理或模型格式转换，几条命令就能走完从安装到对话的全流程。

Go 语言带来的技术优势

项目采用 Go 语言开发，带来了几个实际好处：

高性能：Go 的并发模型天然适合处理多请求并发场景
跨平台：编译后的二进制文件可在 Windows、macOS、Linux 上直接运行
部署简单：单一可执行文件，不依赖额外运行时环境

Ollama 选择 Go 语言是一个值得深入理解的技术决策。Go 语言由 Google 于 2009 年发布，其核心设计目标是解决大规模软件工程中的编译速度、并发处理和部署复杂性问题。Go 的 goroutine 机制允许以极低的内存开销（每个 goroutine 仅占约 2KB 栈空间）创建数十万个并发执行单元，这对于需要同时处理多个推理请求的模型服务框架至关重要。此外，Go 编译为静态链接的单一二进制文件，消除了 Python 生态中常见的依赖地狱问题——用户无需安装 conda、pip 包或特定版本的 CUDA 工具链即可运行。不过值得注意的是，Ollama 的底层推理引擎实际上调用了 llama.cpp（一个用 C/C++ 编写的高性能推理库），Go 主要负责上层的 API 服务、模型管理和生命周期调度。

活跃的社区与丰富的生态

17 万+ Star 和近 1.6 万 Fork 背后是一个高度活跃的开发者社区。大量第三方工具和集成方案围绕 Ollama 构建，形成了完善的生态。Open WebUI、Continue（VS Code AI 编程插件）等知名项目都将 Ollama 作为首选的本地模型后端。

Open WebUI（原名 Ollama WebUI）是 Ollama 生态中最具代表性的第三方项目之一，它提供了一个类似 ChatGPT 的网页交互界面，支持多模型切换、对话历史管理、文件上传分析、RAG 集成等功能。用户只需通过 Docker 一键部署即可获得完整的本地 AI 助手体验。Continue 则是一个开源的 VS Code/JetBrains IDE 插件，可以将 Ollama 运行的本地模型作为编程助手，提供代码补全、解释、重构等功能，实现完全离线的 AI 辅助编程。此外，Ollama 提供了兼容 OpenAI API 格式的 HTTP 接口（默认端口 11434），这意味着大量已有的基于 OpenAI API 开发的应用只需修改 base_url 即可无缝切换到本地模型，极大降低了迁移成本。

Ollama 典型应用场景

开发者日常使用

本地开发调试：在本地快速测试不同模型效果，省去 API 调用费用
离线环境部署：在无网络或网络受限的环境中照常运行 AI 模型
隐私敏感场景：所有数据在本地处理，不经过任何第三方服务器

本地推理的硬件需求

在本地运行大模型对硬件有明确的要求，主要瓶颈在于内存/显存容量和带宽。大模型推理的核心操作是矩阵乘法，其性能受限于内存带宽而非计算能力（即 memory-bound 而非 compute-bound）。以 7B 参数模型为例，Q4 量化后约需 4-5GB 内存，在 Apple M 系列芯片（统一内存带宽约 100-400GB/s）上可达到 30-60 tokens/s 的生成速度；而 70B 模型则需要 40GB 以上内存。NVIDIA GPU 方面，RTX 4090（24GB VRAM）可流畅运行大多数 13B-34B 量化模型。Ollama 支持自动检测可用的 GPU（NVIDIA CUDA、AMD ROCm、Apple Metal）并进行模型层的 GPU offload，即将部分模型层放在 GPU 上加速，其余层在 CPU 上运行，实现灵活的硬件利用。

企业级应用

模型评估选型：快速对比多个模型在特定业务任务上的表现
内部知识库问答：结合 RAG 技术搭建企业私有知识助手
边缘计算部署：在边缘设备上运行轻量级模型，满足低延迟需求

深入理解 RAG 技术

RAG（Retrieval-Augmented Generation，检索增强生成）是当前企业级 AI 应用中最主流的架构模式之一。其核心思路是：在大模型生成回答之前，先从外部知识库中检索与用户问题相关的文档片段，将这些片段作为上下文注入到提示词中，从而让模型基于真实数据生成回答。这种方法有效解决了大模型的两个核心痛点——知识截止日期限制和幻觉问题。典型的 RAG 流程包括：文档分块、向量化（通过 Embedding 模型将文本转为高维向量）、存入向量数据库（如 Chroma、Milvus、Qdrant）、检索相似文档、拼接提示词、调用 LLM 生成回答。Ollama 在这一流程中扮演的角色是提供本地化的 LLM 推理和 Embedding 计算能力，配合 LangChain、LlamaIndex 等编排框架即可搭建完整的私有化 RAG 系统。

发展趋势与总结

从 Ollama 持续新增模型支持的节奏来看，本地大模型运行正在成为 AI 应用的关键基础设施。随着 Kimi-K2.5、GLM-5 等最新模型的接入，Ollama 已经从单纯的运行工具演变为连接模型开发者和应用开发者的桥梁。

对于想要在本地体验和部署大模型的开发者来说，Ollama 提供了一个门槛低、效率高的实验平台。无论是个人学习探索、产品原型验证还是生产环境部署，它都是当下最值得上手的本地大模型工具之一。

核心要点

Ollama 是 GitHub 上超过 17 万星标的开源项目，支持一键本地运行多种主流大语言模型
最新支持 Kimi-K2.5、GLM-5、MiniMax、DeepSeek 等国产大模型以及 Gemma 等国际模型
采用 Go 语言开发，底层调用 llama.cpp 推理引擎，具备高性能、跨平台、部署简单等技术优势
支持 GGUF 格式和多种量化精度，使消费级硬件也能运行大参数模型
适用于本地开发调试、隐私敏感场景、企业模型评估选型、RAG 知识库等多种应用场景
提供兼容 OpenAI API 的接口，已形成丰富的第三方生态，成为本地大模型运行的事实标准框架