Gemini CLI教程：免费百万Token AI终端工具安装与实战指南

谷歌近期发布了一款开源AI Agent工具——Gemini CLI，它是Gemini大模型的命令行版本，能直接在终端中调用Gemini 2.5 Pro完成各种自动化任务。更吸引人的是，这款工具完全免费，支持100万Token超长上下文窗口，每天提供1000次免费调用额度。

这篇教程将从安装配置到实战应用，手把手带你上手Gemini CLI。

Gemini CLI是什么：免费百万Token的命令行AI

Gemini CLI是谷歌官方推出的命令行AI工具，底层调用的是Gemini 2.5 Pro模型。Gemini 2.5 Pro是谷歌DeepMind团队开发的最新一代多模态大语言模型，属于Gemini系列的旗舰版本，在各大权威基准测试中，其推理能力和代码生成能力均处于第一梯队，与OpenAI的GPT-4o、Anthropic的Claude 3.5 Sonnet形成直接竞争。和ChatGPT网页版不同，Gemini CLI运行在终端里，天然适合开发者和喜欢键盘操作的效率党。

这里有必要解释一下Token的概念：Token是大语言模型处理文本的基本单位，一个中文字大约对应1-2个Token，一个英文单词大约对应1-1.5个Token。100万Token的上下文窗口意味着模型单次对话可以"记住"大约50万字的中文内容，这相当于一本长篇小说的体量，远超大多数竞品的12.8万或20万Token限制。

它的核心优势包括：

免费额度充足：每天1000次调用，个人使用绑绑有余
超长上下文：100万Token窗口，处理大文件和长对话毫无压力
开源可扩展：支持MCP协议，能集成各种外部工具
多模态支持：不仅处理文本，还能识别图片内容

安装配置与认证排错

基础安装步骤

Gemini CLI基于TypeScript开发，需要先安装Node.js（版本≥18）。安装完成后，用node -v确认版本号。

官方提供了两种安装方式：NPX临时执行和NPM全局安装。这两种方式有本质区别——NPM（Node Package Manager）是Node.js的官方包管理工具，全局安装（npm install -g）会将工具永久写入系统路径，之后可以像系统命令一样随时调用。而NPX（Node Package Execute）是NPM 5.2+内置的包执行工具，特点是"即用即下、用完即删"，每次执行时临时下载最新版本的包，运行结束后不会在系统中留下痕迹。NPX适合偶尔尝鲜的场景，而NPM全局安装适合需要频繁使用的工具。因此推荐使用NPM全局安装，这样每次只需输入gemini就能启动：

npm install -g @google/gemini-cli

首次启动后，工具会让你选择终端主题，然后进入身份验证环节。支持Google账号登录或Gemini API Key两种认证方式。

认证失败怎么办？两种常见情况及解决方案

情况一：网络问题导致认证卡住

如果一直停在认证页面没有反应，多半是网络问题。给终端配置代理即可解决：

export https_proxy=http://127.0.0.1:端口号
export http_proxy=http://127.0.0.1:端口号

配置完成后重新启动Gemini CLI。注意export方式仅对当前终端窗口生效，这是因为export设置的是当前Shell进程的环境变量，关闭终端窗口后变量就会消失。如果想全局生效，可以把命令写入.zshrc（macOS默认Shell配置文件）或.bashrc（Linux默认Shell配置文件），这样每次打开新终端都会自动加载这些设置。或者直接开启代理软件的TUN/增强模式，让系统层面的所有网络请求都走代理通道。

认证身份界面

情况二：提示需要Google Cloud Project环境变量

如果你的Google账号之前申请过Gemini API Key，可能会遇到这个提示。这是因为Gemini CLI需要关联一个Google Cloud项目来管理API调用的配额和计费。按以下步骤操作：

打开Google Cloud控制台，选择或创建一个项目
搜索"Gemini for Google Cloud"并启用该服务
复制项目ID
在终端执行：export GOOGLE_CLOUD_PROJECT=你的项目ID

同样建议把这条命令写入系统配置文件，避免每次手动设置。

内置工具与自动化任务实测

Gemini CLI提供了三种操作符来扩展功能：

/：调用内置功能
`：执行Shell命令
@：引用本地文件或外部资料

输入/tools nodsc可以查看所有可用工具，涵盖文件读写、目录搜索、网页内容提取、Google搜索等。

文件批量处理能力实测

在实际测试中，Gemini CLI的文件处理能力相当出色。它的工作方式是先理解用户的自然语言指令，然后自动规划执行步骤，调用Shell命令或生成脚本来完成任务——这正是AI Agent区别于普通聊天机器人的核心特征：不仅能"说"，还能"做"。

批量重命名文件：让它把文件夹中所有图片后缀改为.png，工具自动调用Shell命令，几秒钟搞定
合并多个Excel文件：工具自动生成Python脚本、安装所需依赖（如pandas和openpyxl库）、执行合并操作，完成后还会主动清理临时脚本
批量替换文本内容：将小说中的角色名全部替换，精准完成且不影响其他内容

Python脚本自动处理文件

图片识别与网页内容提取

Gemini CLI的多模态能力同样值得一提。所谓多模态，是指模型能同时理解和处理文本、图片、音频、视频等多种类型的信息输入，而不仅仅局限于纯文本。在实际使用中，它能准确识别图片中的品牌Logo、颜色、文字等信息。

网页提取功能也很实用——不仅可以总结整篇文章的要点，还能精准提取你指定的部分内容，比如页面中的某段代码。

内置的Google搜索工具会自动将搜索结果按行业趋势、技术进展、全球动态等维度分类整理，比直接看搜索结果页高效不少。这种能力本质上是利用了大语言模型的信息提取和结构化整理能力，将零散的搜索结果转化为有组织的知识摘要。

上下文管理与会话功能

用Compress命令压缩上下文

多轮对话聊久了，上下文可能会接近窗口上限。Gemini CLI提供了/compress命令来解决这个问题。

实测效果：Token从4048压缩到302，减少了90%以上的消耗，同时关键信息都保留了下来。

Compress压缩上下文效果

它的原理是对历史对话做摘要压缩，让模型在有限的上下文窗口内依然能获取完整的对话脉络。从技术角度看，上下文压缩是一种有损压缩策略——利用模型自身的摘要能力，将冗长的历史对话提炼为精简的要点概述，然后用这份摘要替代原始对话历史继续参与后续推理。虽然会丢失一些细节措辞，但关键的事实、决策和上下文关系都会被保留。相比简单地截断早期对话（滑动窗口策略），摘要压缩能更好地维持对话的连贯性和逻辑一致性。

Chat会话保存与恢复

Gemini CLI支持会话管理功能，用法类似ChatGPT网页版的历史记录：

/chat save article：保存当前会话并打上标签
/chat list：查看所有已保存的会话列表
/chat resume article：恢复指定会话继续工作

这意味着你可以同时维护多个工作流——一个用于写文章，一个用于写代码，随时切换互不干扰。会话数据保存在本地的~/.gemini/目录下，不会上传到云端，对于在意数据隐私的用户来说是一个加分项。

MCP集成：用自然语言操控浏览器

Gemini CLI支持MCP（Model Context Protocol）协议，可以接入各种外部工具来扩展能力。MCP是由Anthropic公司于2024年底提出的开放协议标准，旨在为AI模型与外部工具、数据源之间建立统一的通信接口。在MCP出现之前，每个AI工具要集成外部服务都需要单独开发适配器，导致生态碎片化严重。MCP的设计理念类似于USB协议之于硬件设备——只要工具遵循MCP标准，就能被任何支持该协议的AI客户端调用。目前MCP已被Cursor、Claude Desktop、Windsurf等主流AI工具广泛采纳，形成了一个快速增长的工具生态。Gemini CLI对MCP的支持意味着用户可以直接复用社区中已有的数千个MCP Server，无需重复造轮子。

下面以Playwright MCP为例，演示如何配置浏览器自动化。

Playwright MCP配置方法

Playwright是由微软开发并维护的开源浏览器自动化框架，支持Chromium、Firefox和WebKit三大浏览器引擎。与传统的Selenium相比，Playwright在执行速度、稳定性和API设计上都有显著优势，尤其擅长处理现代单页应用（SPA）中的动态内容加载和复杂交互场景。Playwright MCP Server将这些自动化能力封装为MCP协议接口，使得AI模型可以通过自然语言指令来控制浏览器执行点击、输入、截图、页面导航等操作，本质上实现了"用说话代替写自动化脚本"的交互范式。

配置步骤如下：

打开配置文件~/.gemini/settings.json
粘贴Playwright MCP Server的JSON配置
重启Gemini CLI

配置完成后，输入/mcp nodsc可以查看所有已加载的MCP工具。

实测效果

在测试中，我让Gemini CLI完成了这样一个任务：用浏览器搜索"Gemini CLI"，打开GitHub项目页面，点击Star按钮，最后截图保存。整个流程一气呵成，全程用自然语言指令驱动。

MCP的配置方式与Cursor、Claude Code等主流AI编程工具非常相似，如果你用过这些工具，上手会很快。这种跨工具的配置一致性正是MCP协议标准化带来的直接好处。

AI编程实战：从规范设定到项目构建

用GEMINI.md设定编程规范

Gemini CLI通过项目根目录下的GEMINI.md文件来设定编程规范，功能类似Cursor的Rules。通过项目级配置文件来约束AI代码生成行为，已经成为AI辅助编程领域的标准实践——Cursor使用.cursorrules文件，GitHub Copilot使用.github/copilot-instructions.md，Claude Code使用CLAUDE.md。这些文件的本质都是System Prompt的项目化管理，将团队的编码规范、技术栈偏好、架构约定等信息持久化存储在项目仓库中，确保AI在生成代码时能遵循团队一致的标准。

你可以在GEMINI.md里面定义：

Python环境版本和包管理方式（如使用Poetry还是pip）
代码风格和注释规则（如遵循PEP 8规范）
前端技术选型（如React、Vue）
UI主题颜色等

执行/memory refresh后，后续生成的所有代码都会遵循这些规范。这种做法不仅提高了AI生成代码的可用性，也让团队协作中的AI辅助编程变得更加可控和可预测。

从零构建一个Web应用

实测中，我让Gemini CLI生成了一个英语单词拼写练习的Web应用，需求包括：

屏幕显示待拼写的单词
支持键盘输入拼写
拼写错误时给出提示
支持导入CSV格式的单词文件

拼写单词Web应用

首次生成的代码基本能用，但拼写出错时缺少视觉反馈。通过一轮对话补充需求后，成功加上了抖动提示效果，CSV导入功能也运行正常。整个开发过程只花了几分钟。这种"先生成基础版本，再通过对话迭代优化"的工作模式，正是AI辅助编程的典型流程，它大幅降低了从想法到可运行原型的时间成本。

分析已有项目的代码结构

Gemini CLI不只能写代码，还擅长读代码。把它指向一个已有项目，它能分析出完整的项目结构和各模块功能。这得益于100万Token的超长上下文窗口——它可以一次性加载整个中小型项目的所有源代码文件，从而建立对项目全局架构的完整理解，而不是像短上下文模型那样只能逐个文件零散分析。

比如对一个百度网盘MCP Server项目的分析，从目录结构、功能模块划分到装饰器的具体用法，都给出了详细准确的解读，对快速理解陌生项目很有帮助。

总结：Gemini CLI值得尝试吗

Gemini CLI是目前少有的免费且功能完整的AI命令行工具。它把Gemini 2.5 Pro的能力带入了终端环境，无论是文件批量处理、信息检索、代码生成还是通过MCP集成外部工具，都有不错的表现。

每天1000次的免费调用额度对个人开发者来说完全够用，100万Token的上下文窗口也让它在处理大型项目时游刃有余。如果你日常工作离不开终端，Gemini CLI绝对值得加入你的工具箱。

核心要点

Gemini CLI免费接入Gemini 2.5 Pro模型，支持100万Token上下文窗口，每天1000次免费调用
认证失败主要有两种原因：网络代理未配置和Google Cloud Project环境变量缺失，均有明确解决方案
内置工具涵盖文件处理、网页提取、Google搜索等，支持多模态图片识别
支持MCP协议集成外部工具，配置方式与Cursor等主流AI编程工具一致
提供上下文压缩（Compress）和会话管理（Chat）功能，有效解决多轮对话的Token限制问题