播客频道 | Gemini CLI教程：免费百万Token AI终端工具安装与实战指南

最近谷歌悄悄放了一个大招，发布了一个叫Gemini CLI的命令行AI工具。说实话，我第一眼看到的时候就被它的免费额度给震到了——每天1000次调用，100万Token的上下文窗口，底层还是Gemini 2.5 Pro这种旗舰模型。这配置，怎么说呢，有点离谱的大方。对，确实挺夸张的。你想啊，100万Token是什么概念？一个中文字大概对应1到2个Token，所以100万Token差不多能装下50万字的中文内容，基本上就是一本长篇小说的体量。而市面上大多数竞品的上下文窗口也就12.8万或者20万Token，Gemini CLI直接拉到百万级别，这在处理大文件、长对话的时候优势非常明显。而且它是跑在终端里的，不是网页版。这对开发者来说其实更自然，因为本来就天天泡在终端里嘛。那我们先聊聊安装这块，我知道不少人可能在第一步就会踩坑。嗯，安装本身其实很简单。它是基于TypeScript开发的，所以你需要先有Node.js，版本18以上就行。然后一条命令，npm install -g @google/gemini-cli，全局装好之后，以后每次在终端里敲gemini就能启动。这里我建议用NPM全局安装而不是NPX临时执行，因为NPX是那种用完就删的模式，适合偶尔尝鲜，但如果你打算经常用，全局安装省心得多。装完之后就是认证环节了，这一步我听说不少人卡住了？没错，认证失败基本就两种情况。第一种是网络问题，如果你一直停在认证页面没反应，大概率是网络不通，给终端配个代理就行，用export命令设置https_proxy和http_proxy。不过要注意，export只对当前终端窗口生效，关了就没了。想永久生效的话，写到.zshrc或者.bashrc里面去。第二种情况是提示需要Google Cloud Project环境变量，这个一般是之前申请过Gemini API Key的用户会遇到。解决方法就是去Google Cloud控制台创建或选一个项目，启用Gemini服务，然后把项目ID通过export设置到环境变量里。好，假设大家都顺利装好认证通过了，我们来聊聊它到底能干什么。我最感兴趣的是它的文件批量处理能力，因为这个在日常工作中太常用了。这块确实是Gemini CLI的亮点。它不是简单的聊天机器人，而是一个AI Agent——你用自然语言告诉它你想做什么，它会自己规划步骤，调用Shell命令或者生成脚本来执行。比如你说把文件夹里所有图片后缀改成.png，它几秒钟就搞定了。更厉害的是合并Excel文件这种复杂任务，它会自动生成Python脚本，自己安装pandas和openpyxl这些依赖，执行完合并之后还会主动把临时脚本清理掉。这个自主规划和执行的能力，是它区别于普通AI对话工具的核心。你看这就很有意思了，它不光能说还能做。那多模态方面呢？我看它还支持图片识别？对，图片识别、网页内容提取、Google搜索这些都是内置的。图片方面它能识别品牌Logo、颜色、文字这些信息，准确率还不错。网页提取也很实用，不只是总结全文，你可以让它精准提取页面中某一段代码或者某个特定内容。Google搜索更有意思，它会自动把搜索结果按行业趋势、技术进展这些维度分类整理，本质上就是利用大模型的信息结构化能力，把零散的结果变成有组织的知识摘要。聊到这里我想问一个实际问题——聊久了Token不就用完了吗？100万虽然多，但如果是复杂项目，多轮对话下来也扛不住吧？这个问题问得好，Gemini CLI专门提供了一个/compress命令来解决。它的原理是对历史对话做摘要压缩，实测下来Token能从4000多压缩到300左右，减少90%以上，但关键信息都保留了。这其实是一种有损压缩策略，会丢掉一些细节措辞，但事实、决策和上下文关系都在。比起简单地砍掉早期对话，这种方式对对话连贯性的维持好太多了。另外它还有会话管理功能，你可以用/chat save保存当前会话，/chat resume恢复，同时维护好几个工作流互不干扰，而且数据都存在本地，不上传云端。隐私这块确实是加分项。接下来我特别想聊的是MCP集成，因为这个能力让Gemini CLI的想象空间一下子打开了。 MCP全称Model Context Protocol，是Anthropic在2024年底提出的开放协议标准。你可以把它理解成AI工具界的USB接口——只要工具遵循这个标准，就能被任何支持MCP的AI客户端调用。在MCP出现之前，每个AI工具要集成外部服务都得单独开发适配器，生态非常碎片化。现在Cursor、Claude Desktop、Windsurf这些主流工具都支持MCP了，Gemini CLI也加入了这个阵营，意味着社区里已有的几千个MCP Server它都能直接用。能举个具体例子吗？比如浏览器自动化是怎么玩的？拿Playwright MCP来说，Playwright是微软开发的浏览器自动化框架，通过MCP封装之后，你就可以用自然语言来控制浏览器了。配置也很简单，在Gemini的settings.json里加上Playwright MCP Server的配置，重启就行。实测中我让它搜索Gemini CLI，打开GitHub页面，点Star，最后截图保存，整个流程全靠自然语言驱动，一气呵成。本质上就是用说话代替写自动化脚本，这个体验还是很惊艳的。最后我们聊聊AI编程这块。Gemini CLI在写代码方面表现怎么样？它有一个很实用的设计，就是通过项目根目录下的GEMINI.md文件来设定编程规范，类似Cursor的Rules。你可以在里面定义Python版本、代码风格、前端技术栈这些，执行/memory refresh之后，后续生成的代码都会遵循这些规范。实测中我让它从零构建了一个英语单词拼写练习的Web应用，首次生成的代码基本能用，然后通过一轮对话补了拼写错误时的抖动提示效果，CSV导入也正常，整个过程就几分钟。这种先出基础版再迭代优化的模式，确实大幅降低了从想法到原型的时间。而且100万Token的上下文在分析已有项目时优势巨大吧？一次性把整个项目的代码都加载进去。对，这是短上下文模型做不到的。短上下文只能逐个文件零散分析，而Gemini CLI可以一次性加载整个中小型项目的所有源文件，建立对全局架构的完整理解。我试过让它分析一个百度网盘MCP Server项目，从目录结构、模块划分到装饰器用法，都给出了非常详细准确的解读，对快速上手陌生项目帮助很大。总结一下的话，Gemini CLI其实填补了一个挺重要的空白——免费、功能完整、跑在终端里的AI Agent工具。每天1000次调用对个人开发者绰绰有余，百万Token的上下文加上MCP生态的扩展性，让它不只是一个聊天工具，而是一个真正能干活的终端助手。如果你日常工作离不开命令行，这个工具确实值得花半小时装起来试试。

Gemini CLI教程：免费百万Token AI终端工具安装与实战指南

更多播客

AI热点风向标·06月07日午间版

AI热点风向标·06月07日早间版

每日AI新鲜事·06月07日早间播报