Gemma 4开源模型本地部署教程：Ollama安装与手机端运行指南

Google 正式发布了旗下最强开源模型 Gemma 4，这是一款专为高级推理和智能体（Agent）设计的开放模型，采用 Apache 2.0 许可证，意味着任何开发者都可以自由地将其用于商业用途。Apache 2.0 是目前开源社区中最宽松的许可证之一，由 Apache 软件基金会维护。与 GPL 等 copyleft 许可证不同，Apache 2.0 允许用户自由使用、修改和分发代码，且不要求衍生作品也必须开源。这意味着企业可以基于 Gemma 4 构建闭源商业产品而无需公开自身代码。此前 Meta 的 LLaMA 系列虽然也号称开源，但其社区许可证对月活超过 7 亿的企业有额外限制，而 Apache 2.0 则完全没有此类约束，这使得 Gemma 4 在商业友好度上具有显著优势。更令人惊喜的是，Gemma 4 最小的版本甚至可以在手机上流畅运行。本文将详细介绍如何使用 Ollama 在本地部署 Gemma 4，以及如何在手机端体验这款模型。

Gemma 4 模型概览：四种规格覆盖全场景

Gemma 4 此次共发布了四种不同规格的模型：1.2B、1.4B、26B 和 31B。其中 B 代表 Billion（十亿），即模型的参数数量。参数量是衡量大语言模型规模的核心指标——参数量越大，模型理论上能学习到的知识和模式越丰富，但同时也需要更多的计算资源和显存。然而近年来，通过改进训练数据质量、优化模型架构（如 Mixture of Experts 混合专家架构）和训练策略，小参数模型也能逼近甚至超越大参数模型的表现，这一趋势被称为"Scaling Law 的效率突破"。Gemma 4 正是这一趋势的典型代表。其中 1.2B 和 1.4B 属于轻量级版本，可以完整地在手机上运行；而旗舰版 31B 则展现出了令人惊叹的性能表现。

从公开的评测数据来看，Gemma 4 31B 的综合能力评分达到了 11,452 分，在同级别模型中处于领先地位。它不仅碾压了智谱 GLM、DeepSeek V3.2 等同参数量级的模型，甚至与参数量远超自身的 Gemini 5、Kimi 2.5 等大模型不相上下。

Gemma 4 评测排名

要知道，Gemini 5 和 Kimi 2.5 的参数量比 Gemma 4 31B 大了许多倍，而 Gemma 4 却能在普通家用显卡（约 50T 算力）上正常运行，这种"以小博大"的能力让它的可玩性极强。在整体能力排行榜上，Gemma 4 31B 排名前 27 位，领先于 Gemma 2.5 Pro、OPS 4.1 等众多知名模型。

免费体验 Gemma 4 的几种方式

在动手部署之前，如果你只是想快速体验 Gemma 4 的能力，可以直接访问 Google 的 AI Studio 平台。只需注册一个账号，选择 Gemma 4 模型即可免费在线提问。

AI Studio 在线体验

不过在线体验毕竟受限于网络和调用次数，接下来重点介绍如何在本地环境和手机端运行 Gemma 4。

使用 Ollama 本地部署 Gemma 4 31B

环境准备与安装

Ollama 是一款专为本地运行大语言模型设计的开源工具，它极大地简化了模型部署流程。传统上，在本地运行 LLM 需要手动配置 Python 环境、安装 PyTorch、下载模型权重、编写推理脚本等繁琐步骤，而 Ollama 将这一切封装为类似 Docker 的体验——一条命令即可完成模型的下载、量化和运行。Ollama 底层基于 llama.cpp 构建，支持 GGUF 格式的量化模型，能够充分利用 GPU 加速（支持 NVIDIA CUDA、Apple Metal 和 AMD ROCm），同时也支持纯 CPU 推理，使得没有独立显卡的用户也能运行较小的模型。

本次演示使用的是腾讯 Cloud Studio 提供的免费云环境（每天赠送一定工时），配置为 GPU A10，显存约 20GB。当然，如果你自己的电脑显卡显存达到 20GB 左右，完全可以在本地完成同样的操作。

Ollama 安装步骤：

访问 Ollama 官网，根据你的操作系统（Windows/macOS/Linux）选择对应的安装命令
一键执行安装命令即可完成安装
安装完毕后，后续的模型管理命令在所有平台上都是一致的

下载与运行模型

安装好 Ollama 后，运行 Gemma 4 只需要一条命令：

ollama run gemma4:31b

执行后 Ollama 会自动下载并加载模型。在 Ollama 的模型库中，Gemma 4 提供了以下几个版本供选择：

参数规格	模型大小	适用场景
1.2B	约 7.2GB	手机端运行
1.4B	约 9.6GB	手机端运行
26B	约 18GB	桌面端运行
31B	约 20GB	桌面端运行

这里需要解释一下为什么 31B 参数的模型只需要约 20GB 的存储空间和显存。这得益于**量化（Quantization）**技术——一种模型压缩方法，通过降低权重的数值精度来减少内存占用和计算量。以 FP16（半精度浮点数）为例，每个参数占用 2 字节，31B 参数的模型理论上需要约 62GB 显存。而 Ollama 默认使用 Q4_K_M 等量化方案，将每个参数压缩到约 4-5 比特，从而将显存需求降低到约 20GB。虽然量化会带来微小的精度损失，但在实际使用中几乎不影响用户体验。常见的量化级别包括 Q8（8比特）、Q4（4比特）和 Q2（2比特），精度依次递减但压缩率依次提高。

GPU 显存占用情况

实测 31B 模型加载后，GPU 显存占用约 20.5GB，GPU 利用率约 91%。这意味着只要你的显卡显存在 20GB 以上（如 RTX 3090、RTX 4090 等），就可以无压力地在本地运行这个旗舰模型。

实际能力测试

Gemma 4 31B 默认开启了思考模式（Think），会展示内部推理过程。思考模式是近年来大语言模型领域的重要突破，其核心思想源自 OpenAI 的 o1 模型所推广的"链式思维推理"（Chain-of-Thought Reasoning）。在传统模式下，模型直接输出最终答案；而在思考模式下，模型会先生成一段内部推理过程，逐步分析问题、考虑不同可能性，然后再给出最终答案。这种方式显著提升了模型在数学、逻辑推理、编程等需要多步骤思考的任务上的表现。Gemma 4 默认开启思考模式，用户可以看到模型的推理链条，这不仅提高了答案质量，也增强了可解释性。

以下是两个经典测试：

测试一：洗车问题——"我想去洗车，应该怎么去？"这个看似简单的问题考验的是模型的常识推理能力。Gemma 4 准确回答"应该开车过去"，因为你的目的是洗车，走过去的话车怎么洗呢？这与 DeepSeek V3.2 的回答基本一致。

测试二：竹竿过门问题——一根长竹竿能否通过一扇窄门？Gemma 4 给出了堪称满分的回答：从几何学角度来看不能直接通过，但从实际操作角度来看，将竹竿横着（顺着门的方向）就可以正常通过。模型同时从逻辑学和实际操作两个维度给出了分析，展现了出色的推理能力。

值得强调的是，DeepSeek V3.2 的参数量远超 Gemma 4 31B，但两者在这些推理任务上的表现几乎相当，这充分说明了 Gemma 4 的"性价比"之高。作为本地备用模型，它的能力完全够用。

手机端运行 Gemma 4：支持工具调用

Google 专门发布了一款名为 Google AI Edge Gallery 的 Android 应用，可以在 Google Play 上免费下载。Google AI Edge Gallery 基于 Google 的 AI Edge SDK 构建，专注于端侧推理（On-device Inference）——即直接在用户设备上运行 AI 模型，而非将数据发送到云端处理。这种方式有三大核心优势：一是隐私保护，用户数据完全不离开设备；二是低延迟，无需网络往返时间；三是离线可用，即使没有网络连接也能正常使用。现代智能手机的 SoC（如高通骁龙 8 Gen 3、联发科天玑 9400）通常集成了专用的 NPU（神经网络处理单元），可以高效执行量化后的小型模型推理任务。

安装与配置

下载安装 Google AI Edge Gallery 后，进入应用可以看到 Agent SQL 等功能入口，明确标注了 Gemma 4 的支持。应用中提供了 1.2B 和 1.4B 两个适合手机端运行的模型版本，经过量化处理后模型大小仅为 2.5GB 和 3.6GB。

手机端 GPU 模式运行

实测在小米 15 Pro 上选择 GPU 模式运行，Gemma 4 1.2B 可以流畅运行，没有任何问题。

工具调用（Tool Use）演示

手机端的 Gemma 4 最大亮点在于支持工具调用（Tool Use），这在如此轻量级的模型上实属难得。工具调用（也称 Function Calling）是实现 AI 智能体（Agent）的关键能力之一。传统的大语言模型只能基于训练数据生成文本，无法获取实时信息或执行实际操作。而具备工具调用能力的模型可以识别用户意图，自动决定是否需要调用外部工具（如搜索引擎、数据库、API 等），生成符合工具接口规范的结构化调用请求，接收工具返回的结果后再整合为自然语言回答。这一能力的实现通常需要在训练阶段加入大量的工具调用示例数据，让模型学会何时调用、调用哪个工具以及如何解析返回结果。Gemma 4 在仅 1.2B 参数的轻量版本上就支持工具调用，这在业界是相当罕见的，说明 Google 在训练数据和模型架构上做了针对性优化。

内置的工具包括：

维基百科查询：可以实时搜索维基百科获取信息
邮件发送：支持调用邮件功能
文本转换：各类文本处理工具
自定义工具：支持通过右上角"+"按钮导入本地或第三方工具

实测让 Gemma 4 "从维基百科查找李小龙的信息"，模型成功自动调用了维基百科工具，准确返回了李小龙 1940 年出生于美国旧金山、1973 年去世等关键信息。

此外，手机端的 Gemma 4 还支持图片和音频输入，是一个真正的全模态模型。结合工具调用能力，它完全可以作为个人 AI 智能体的后端引擎使用。如果在 Mac mini M4 等设备上运行，更是毫无压力。

总结与建议

Gemma 4 的发布标志着开源模型进入了一个新阶段——小参数量、高性能、全功能。31B 的旗舰版本用 20GB 显存就能运行，却能媲美参数量大数倍的闭源模型；1.2B 的轻量版本甚至能在手机上运行并支持工具调用。

对于开发者而言，Apache 2.0 的开源许可意味着零门槛的商业化可能。无论是作为本地备用模型、手机端 AI 助手，还是智能体应用的后端引擎，Gemma 4 都是当前最值得关注的开源选择之一。