Ollama教程：一条命令本地运行DeepSeek等大模型

Ollama 是什么？一分钟了解这款17万Star的本地大模型工具

Ollama 是一个开源项目，让用户能够在自己的电脑上轻松运行各种大语言模型（LLM）。大语言模型是基于 Transformer 架构、通过海量文本数据训练而成的深度学习模型，其核心原理是通过自注意力机制（Self-Attention）学习文本中词与词之间的关系，从而具备文本生成、理解、翻译、推理等多种能力。

Transformer 架构最早由 Google 研究团队在 2017 年的论文《Attention Is All You Need》中提出，其核心创新在于完全抛弃了此前主流的循环神经网络（RNN）和卷积神经网络（CNN）结构，转而依靠自注意力机制来处理序列数据。自注意力机制的直觉可以这样理解：对于输入文本中的每一个词，模型会计算它与所有其他词之间的「相关性得分」，通过 Query（查询）、Key（键）、Value（值）三组矩阵运算，动态地决定在生成当前词的表示时应该「关注」哪些上下文信息。这种机制使得模型能够高效捕捉长距离依赖关系——例如理解一个代词指代的是几百个词之前提到的某个实体。从 2018 年 OpenAI 的 GPT-1 到如今参数量达数千亿的 GPT-4，从 Google 的 BERT、T5 到 Meta 的 LLaMA 系列，Transformer 已成为几乎所有现代大语言模型的统一架构基础，不同模型之间的差异主要体现在训练数据、参数规模、训练策略和架构细节的调整上。

典型的 LLM 参数量从数十亿到数千亿不等，参数量越大通常意味着模型能力越强，但对运行硬件的要求也越高。传统上，运行这类模型需要高端 GPU 服务器或云端 API，而 Ollama 的出现让普通消费级硬件也能运行经过优化的模型版本。

该项目在 GitHub 上已斩获超过 17 万颗 Star，拥有近 1.6 万个 Fork，是目前最受欢迎的本地大模型运行框架之一。项目使用 Go 语言编写，以简洁的命令行接口和出色的跨平台兼容性著称。

截至目前，Ollama 已经支持了包括 Kimi-K2.5、GLM-5、MiniMax、DeepSeek、gpt-oss、Qwen、Gemma 在内的众多主流模型，几乎覆盖了国内外所有热门的开源大模型。

github source: ollama/ollama: Get up and running with Kimi-K2.5, GLM-5, MiniMax, DeepSeek, gpt-oss, Qwen, Gemma and

Ollama 为什么这么火？三大核心优势解析

极简上手：一条命令跑通大模型

Ollama 最大的优势在于把复杂的模型部署流程简化到了极致。用户只需一条命令即可下载并运行模型，不用手动配置 Python 环境、安装依赖库或处理模型权重文件的转换。这种「开箱即用」的体验大幅降低了本地运行大模型的门槛，哪怕没有技术背景也能快速上手。

这种极简体验的背后，离不开 Ollama 底层依赖的 llama.cpp 推理引擎。llama.cpp 是一个用纯 C/C++ 实现的 LLM 推理引擎，由 Georgi Gerganov 于 2023 年 3 月发起，最初目的是让 Meta 的 LLaMA 模型能在 MacBook 上运行。该项目的核心创新在于：完全不依赖 Python 和 PyTorch 等重型框架，通过手动优化的 SIMD 指令、Metal（macOS GPU 加速）、CUDA（NVIDIA GPU 加速）和 Vulkan（跨平台 GPU 加速）等后端实现高效推理。

这些 GPU 加速后端各有其技术定位和适用场景。Metal 是 Apple 自研的图形和计算 API，专为 Apple Silicon（M1/M2/M3/M4 系列芯片）优化，能够充分利用其统一内存架构（CPU 和 GPU 共享内存），这也是为什么 Mac 用户使用 Ollama 体验特别流畅的原因。CUDA（Compute Unified Device Architecture）是 NVIDIA 于 2006 年推出的并行计算平台，拥有最成熟的 AI 计算生态，几乎所有深度学习框架都以 CUDA 为首要支持目标，NVIDIA GPU 用户通过 CUDA 后端可以获得最佳推理性能。Vulkan 则是由 Khronos Group 维护的跨平台图形和计算 API，其最大优势在于不绑定特定硬件厂商——AMD、Intel、NVIDIA 甚至移动端 GPU 都可以通过 Vulkan 进行加速，为非 NVIDIA 用户提供了 GPU 加速的可能。此外，llama.cpp 近期还增加了对 SYCL 后端的支持，进一步扩展了对 Intel Arc 系列 GPU 的兼容性。用户在使用 Ollama 时通常无需手动选择后端，工具会根据检测到的硬件自动选择最优的加速方案。

GGUF（GPT-Generated Unified Format）是 llama.cpp 定义的模型文件格式，已成为本地模型部署的事实标准。GGUF 的前身是 GGML 格式（以 Georgi Gerganov 的名字缩写命名），但 GGML 存在版本兼容性差、元数据管理不便等问题。2023 年 8 月，llama.cpp 社区推出了 GGUF 作为替代方案，其核心设计理念是「单文件自包含」——一个 GGUF 文件中不仅包含模型的权重参数，还打包了模型架构信息、分词器（Tokenizer）配置、量化方案元数据等所有运行模型所需的信息。这与 PyTorch 的 .pt 格式或 Hugging Face 的 safetensors 格式形成了鲜明对比——后者通常需要额外的配置文件（如 config.json、tokenizer.json 等）才能完整加载模型。GGUF 的这种设计使得模型分发变得极为简单：用户只需下载一个文件即可运行，这也是 Ollama 能够实现「一条命令运行模型」的文件格式基础。目前，Hugging Face 模型库中已有数万个 GGUF 格式的模型文件，覆盖了几乎所有主流开源模型的各种量化版本。

Ollama 在此基础上封装了模型管理、API 服务和用户交互层，让用户无需直接接触底层的编译和配置细节。

Ollama 支持哪些模型？从 DeepSeek 到 Qwen 全覆盖

Ollama 持续跟进业界最新的模型发布。从最新的模型列表可以看出几个值得关注的趋势：

中国大模型强势崛起：Kimi-K2.5（月之暗面）、GLM-5（智谱）、DeepSeek、Qwen（通义千问）、MiniMax 等国产模型均已纳入支持范围，反映了中国在大模型领域的快速进步。中国大模型领域在 2023-2025 年间经历了爆发式增长——月之暗面推出的 Kimi 系列以超长上下文窗口著称，K2.5 版本在多项基准测试中达到国际领先水平；智谱 AI 的 GLM 系列是国内最早的开源大模型之一，GLM-5 代表了其最新的技术迭代；DeepSeek 以高性价比的 MoE（混合专家）架构闻名，其开源的 DeepSeek-V3 和 R1 模型在推理能力上表现突出；阿里的通义千问（Qwen）系列则以完善的多模态能力和丰富的模型尺寸选择见长。

其中，DeepSeek 采用的 MoE（Mixture of Experts，混合专家）架构值得特别关注。传统的大语言模型（称为「稠密模型」）在每次推理时会激活所有参数进行计算，而 MoE 架构则引入了一个「门控网络」（Gating Network），在每次前向传播时动态选择仅一小部分「专家」子网络参与计算。例如，DeepSeek-V3 拥有约 6710 亿总参数，但每次推理仅激活约 370 亿参数——这意味着模型拥有大模型的知识容量，却只需要小模型级别的计算资源。这种「大容量、低算力」的特性使得 MoE 模型在性价比上具有显著优势，也是 DeepSeek 能够以较低成本提供强大推理能力的技术根基。MoE 架构并非新概念（最早可追溯到 1991 年），但在大模型时代被 Google 的 Switch Transformer（2021 年）和 Mistral 的 Mixtral（2023 年）重新带火，DeepSeek 则将其推向了新的高度。

这些模型的共同特点是积极拥抱开源策略，通过 Apache 2.0 或类似许可证发布权重，使得 Ollama 等工具能够快速集成。
多元化的模型选择：从谷歌的 Gemma 到各类专用模型，用户可以根据不同应用场景挑选最合适的模型。
新模型响应极快：OpenAI 近期开源的 gpt-oss 模型也被迅速集成，说明 Ollama 团队的跟进速度非常快。

活跃社区驱动持续迭代

17 万+ Star 的背后是一个极其活跃的开发者社区。近 1.6 万个 Fork 意味着大量开发者正在基于 Ollama 进行二次开发和定制化应用。这种社区活力保证了项目能够快速适配新模型、修复 Bug 并持续优化性能。

Ollama 技术架构：为什么选择 Go 语言？

Go 语言带来的工程优势

Ollama 选择 Go 语言作为主要开发语言，这一决策带来了几个实际好处：

编译为单一二进制文件，安装分发极为简便，不依赖额外运行时
优秀的并发处理能力，天然适合处理模型推理的 API 服务场景
跨平台编译支持，轻松覆盖 macOS、Linux 和 Windows 三大平台

Go 语言（又称 Golang）由 Google 于 2009 年发布，由 Ken Thompson（Unix 和 C 语言的共同创造者）、Rob Pike 和 Robert Griesemer 三位计算机科学家联合设计，专为系统编程和网络服务而生。Go 的 goroutine 并发模型是其最核心的特性之一——goroutine 是一种极轻量级的协程，启动一个 goroutine 仅需约 2KB 内存，而传统操作系统线程通常需要 1MB 以上。Go 运行时内置了自己的调度器（称为 GMP 模型），能够将数以万计的 goroutine 高效地映射到少量的操作系统线程上执行。这使得 Go 程序可以轻松管理数万个并发任务，非常适合 Ollama 这类需要同时处理多个推理请求的 API 服务——当多个用户或应用同时向 Ollama 发送推理请求时，每个请求都可以由一个独立的 goroutine 处理，而不会因为线程资源耗尽导致性能下降。此外，Go 的静态编译特性意味着所有依赖都会被打包进一个二进制文件，用户无需安装任何运行时环境（如 JVM 或 Python 解释器），这也是 Ollama 安装体验如此简洁的技术根基。Docker、Kubernetes、Terraform 等知名基础设施工具同样选择了 Go 语言，进一步验证了 Go 在系统工具领域的适用性。

本地推理的核心价值：数据隐私与离线可用

在数据隐私日益受到重视的今天，本地运行大模型的需求持续增长。使用 Ollama，你的数据完全留在本地，不需要把敏感信息发送到云端 API。这对企业用户和注重隐私的个人来说意义重大——无论是处理内部文档、代码审查还是私人对话，数据始终在你自己的掌控之中。

本地运行大模型的隐私优势在全球数据监管趋严的背景下尤为重要。欧盟的《通用数据保护条例》（GDPR）对数据跨境传输有严格限制，其中第 44-49 条明确规定了向第三国传输个人数据的条件，违规企业可能面临高达全球年营业额 4% 的罚款。中国的《数据安全法》和《个人信息保护法》同样要求敏感数据的本地化处理，特别是涉及国家安全和公共利益的「重要数据」必须存储在境内。当企业使用云端大模型 API 时，输入的提示词（Prompt）和返回的结果都会经过第三方服务器，存在数据泄露和合规风险。2023 年三星员工将内部半导体代码和会议纪要粘贴到 ChatGPT 导致机密泄露的事件，更是推动了企业对本地部署方案的需求——此事件后，三星、苹果、摩根大通等多家大型企业相继限制或禁止员工使用外部 AI 服务。Ollama 的本地推理模式从架构层面消除了数据外传的可能性，所有计算都在用户自己的硬件上完成，网络连接仅在下载模型时需要，推理过程完全可以在离线环境中进行。

Ollama 对AI行业的影响与未来发展

Ollama 的成功代表了大模型领域一个重要方向：模型的民主化。模型民主化（Democratization of AI）是指让更多人能够以更低的成本获取和使用 AI 能力的趋势。这一趋势由三股力量共同推动：一是开源模型的能力不断逼近甚至超越闭源模型；二是量化和蒸馏等模型压缩技术持续进步；三是消费级 GPU（如 NVIDIA RTX 4090 拥有 24GB 显存）的性能已足以运行中等规模的模型。

其中，知识蒸馏（Knowledge Distillation） 是模型压缩的另一项关键技术。蒸馏的核心思想由 Geoffrey Hinton 等人在 2015 年提出：用一个已经训练好的大模型（称为「教师模型」）来指导一个小模型（称为「学生模型」）的训练。具体而言，学生模型不仅学习训练数据的真实标签，还学习教师模型输出的概率分布（即「软标签」）——这些软标签包含了教师模型对各个选项的「信心程度」，蕴含着比硬标签更丰富的知识信息。例如，DeepSeek 发布的 DeepSeek-R1 蒸馏版就是用完整的 R1 模型作为教师，将其推理能力蒸馏到 Qwen 和 LLaMA 等较小的基座模型中，使得 14B 甚至 7B 参数的蒸馏模型也能展现出接近原始 671B 参数模型的推理链能力。蒸馏技术与量化技术可以叠加使用——先蒸馏得到小模型，再对小模型进行量化，从而实现模型能力的「双重压缩」，让强大的 AI 能力真正跑进普通用户的笔记本电脑。

模型量化技术则是让大模型「跑进」普通电脑的另一把关键钥匙。模型量化是将模型参数从高精度浮点数（如 FP32、FP16）转换为低精度表示（如 INT8、INT4 甚至更低）的技术。以一个 70 亿参数的模型为例，FP16 精度下每个参数占用 2 字节，总共需要约 14GB 显存，而经过 INT4 量化后每个参数仅占 0.5 字节，总共仅需约 4GB，大幅降低了硬件门槛。Ollama 底层依赖的 llama.cpp 项目实现了 GGUF 格式的高效量化方案，支持 Q4_0、Q4_K_M、Q5_K_M 等多种量化级别，用户可以在模型质量和资源占用之间灵活权衡。其中，带有 _K_ 标记的量化方案（如 Q4_K_M）采用了 k-quant 技术，对模型中不同层使用不同的量化精度——对模型质量影响较大的关键层保留更高精度，而对影响较小的层使用更激进的压缩，从而在相同的文件大小下获得更好的模型质量。量化虽然会带来一定的精度损失，但在实际使用中，4-bit 量化模型的表现往往与原始模型差距很小，尤其在对话和文本生成等任务上几乎难以察觉。

从 Ollama 支持的模型列表变化也能看出行业格局的演变。一年前，列表中主要是 Llama 和 Mistral 等海外模型；而如今，中国模型已经占据了半壁江山，这种变化速度相当惊人。

展望未来，随着多模态模型、AI Agent 框架和更高效推理引擎的发展，Ollama 这类工具的重要性只会进一步提升。AI Agent（智能体）是当前 AI 应用的前沿方向，指能够自主规划、使用工具并完成复杂任务的 AI 系统。与传统的「一问一答」式 AI 交互不同，Agent 能够将复杂任务分解为多个步骤，自主决定调用哪些工具（如搜索引擎、代码执行器、数据库查询等），并根据中间结果动态调整执行计划。LangChain、AutoGPT、CrewAI 等 Agent 框架通常需要频繁调用 LLM 进行推理——一个复杂任务可能需要数十次甚至上百次 LLM 调用来完成规划、反思和决策，如果使用云端 API，每次调用都会产生费用和网络延迟。而本地运行的模型可以提供低延迟、零成本的推理服务，使得开发者能够在不产生高额 API 费用的情况下构建和测试 Agent 应用。

Ollama 提供的兼容 OpenAI 格式的本地 API 在这一生态中扮演着关键角色。OpenAI 的 Chat Completions API（以 /v1/chat/completions 端点为代表）已成为 LLM 应用开发的事实标准接口——几乎所有主流的 AI 开发框架、IDE 插件和应用程序都以该接口格式为首要支持目标。Ollama 通过在本地启动一个兼容该格式的 HTTP 服务（默认监听 localhost:11434），使得开发者只需将 API 地址从 OpenAI 的云端服务器切换为本地地址，即可让现有应用无缝使用本地模型，无需修改任何业务代码。这种「API 兼容」策略极大地降低了从云端迁移到本地的成本，也使得 Ollama 能够无缝对接 LangChain、LlamaIndex、Open WebUI 等整个开源 AI 工具生态。Ollama 不仅是一个模型运行工具，更是连接开源模型生态与终端用户的关键桥梁。

总结：谁应该使用 Ollama？

Ollama 以 17 万+ Star 的成绩证明了市场对本地大模型运行工具的强烈需求。极简的使用体验、广泛的模型支持和活跃的社区生态，让它成为当前本地 AI 基础设施中不可或缺的一环。

如果你是以下人群，Ollama 值得立刻尝试：

开发者：快速搭建本地 LLM API，集成到自己的应用中，利用兼容 OpenAI 的接口格式实现零成本迁移
研究人员：方便地对比测试不同模型的表现，通过不同量化级别探索模型质量与资源占用的平衡点
AI 爱好者：零门槛体验 DeepSeek、Qwen 等最新开源模型，无需 GPU 服务器也能感受大模型的能力
企业用户：在不泄露数据的前提下使用大模型能力，满足 GDPR、数据安全法等合规要求

无论你的需求是什么，Ollama 都值得纳入你的 AI 工具箱。

核心要点

Ollama 在 GitHub 上获得超过 17 万 Star，是最受欢迎的本地大模型运行框架之一
已支持 Kimi-K2.5、GLM-5、MiniMax、DeepSeek、Qwen 等众多中外主流开源模型
使用 Go 语言开发，提供极简的命令行体验，一条命令即可运行模型
底层基于 llama.cpp 推理引擎，通过 GGUF 格式和模型量化技术实现消费级硬件上的高效推理
本地运行模式保障数据隐私，满足 GDPR、数据安全法等合规要求
中国大模型在 Ollama 生态中占比显著提升，反映了国内 AI 领域的快速发展
兼容 OpenAI API 格式，可无缝对接 LangChain 等 AI Agent 框架，适应未来智能体应用趋势