最近谷歌悄悄放了一个大招,发布了一个叫Gemini CLI的命令行AI工具。说实话,我第一眼看到的时候就被它的免费额度给震到了——每天1000次调用,100万Token的上下文窗口,底层还是Gemini 2.5 Pro这种旗舰模型。这配置,怎么说呢,有点离谱的大方。
对,确实挺夸张的。你想啊,100万Token是什么概念?一个中文字大概对应1到2个Token,所以100万Token差不多能装下50万字的中文内容,基本上就是一本长篇小说的体量。而市面上大多数竞品的上下文窗口也就12.8万或者20万Token,Gemini CLI直接拉到百万级别,这在处理大文件、长对话的时候优势非常明显。
而且它是跑在终端里的,不是网页版。这对开发者来说其实更自然,因为本来就天天泡在终端里嘛。那我们先聊聊安装这块,我知道不少人可能在第一步就会踩坑。
嗯,安装本身其实很简单。它是基于TypeScript开发的,所以你需要先有Node.js,版本18以上就行。然后一条命令,npm install -g @google/gemini-cli,全局装好之后,以后每次在终端里敲gemini就能启动。这里我建议用NPM全局安装而不是NPX临时执行,因为NPX是那种用完就删的模式,适合偶尔尝鲜,但如果你打算经常用,全局安装省心得多。
装完之后就是认证环节了,这一步我听说不少人卡住了?
没错,认证失败基本就两种情况。第一种是网络问题,如果你一直停在认证页面没反应,大概率是网络不通,给终端配个代理就行,用export命令设置https_proxy和http_proxy。不过要注意,export只对当前终端窗口生效,关了就没了。想永久生效的话,写到.zshrc或者.bashrc里面去。第二种情况是提示需要Google Cloud Project环境变量,这个一般是之前申请过Gemini API Key的用户会遇到。解决方法就是去Google Cloud控制台创建或选一个项目,启用Gemini服务,然后把项目ID通过export设置到环境变量里。
好,假设大家都顺利装好认证通过了,我们来聊聊它到底能干什么。我最感兴趣的是它的文件批量处理能力,因为这个在日常工作中太常用了。
这块确实是Gemini CLI的亮点。它不是简单的聊天机器人,而是一个AI Agent——你用自然语言告诉它你想做什么,它会自己规划步骤,调用Shell命令或者生成脚本来执行。比如你说把文件夹里所有图片后缀改成.png,它几秒钟就搞定了。更厉害的是合并Excel文件这种复杂任务,它会自动生成Python脚本,自己安装pandas和openpyxl这些依赖,执行完合并之后还会主动把临时脚本清理掉。这个自主规划和执行的能力,是它区别于普通AI对话工具的核心。
你看这就很有意思了,它不光能说还能做。那多模态方面呢?我看它还支持图片识别?
对,图片识别、网页内容提取、Google搜索这些都是内置的。图片方面它能识别品牌Logo、颜色、文字这些信息,准确率还不错。网页提取也很实用,不只是总结全文,你可以让它精准提取页面中某一段代码或者某个特定内容。Google搜索更有意思,它会自动把搜索结果按行业趋势、技术进展这些维度分类整理,本质上就是利用大模型的信息结构化能力,把零散的结果变成有组织的知识摘要。
聊到这里我想问一个实际问题——聊久了Token不就用完了吗?100万虽然多,但如果是复杂项目,多轮对话下来也扛不住吧?
这个问题问得好,Gemini CLI专门提供了一个/compress命令来解决。它的原理是对历史对话做摘要压缩,实测下来Token能从4000多压缩到300左右,减少90%以上,但关键信息都保留了。这其实是一种有损压缩策略,会丢掉一些细节措辞,但事实、决策和上下文关系都在。比起简单地砍掉早期对话,这种方式对对话连贯性的维持好太多了。另外它还有会话管理功能,你可以用/chat save保存当前会话,/chat resume恢复,同时维护好几个工作流互不干扰,而且数据都存在本地,不上传云端。
隐私这块确实是加分项。接下来我特别想聊的是MCP集成,因为这个能力让Gemini CLI的想象空间一下子打开了。
MCP全称Model Context Protocol,是Anthropic在2024年底提出的开放协议标准。你可以把它理解成AI工具界的USB接口——只要工具遵循这个标准,就能被任何支持MCP的AI客户端调用。在MCP出现之前,每个AI工具要集成外部服务都得单独开发适配器,生态非常碎片化。现在Cursor、Claude Desktop、Windsurf这些主流工具都支持MCP了,Gemini CLI也加入了这个阵营,意味着社区里已有的几千个MCP Server它都能直接用。
能举个具体例子吗?比如浏览器自动化是怎么玩的?
拿Playwright MCP来说,Playwright是微软开发的浏览器自动化框架,通过MCP封装之后,你就可以用自然语言来控制浏览器了。配置也很简单,在Gemini的settings.json里加上Playwright MCP Server的配置,重启就行。实测中我让它搜索Gemini CLI,打开GitHub页面,点Star,最后截图保存,整个流程全靠自然语言驱动,一气呵成。本质上就是用说话代替写自动化脚本,这个体验还是很惊艳的。
最后我们聊聊AI编程这块。Gemini CLI在写代码方面表现怎么样?
它有一个很实用的设计,就是通过项目根目录下的GEMINI.md文件来设定编程规范,类似Cursor的Rules。你可以在里面定义Python版本、代码风格、前端技术栈这些,执行/memory refresh之后,后续生成的代码都会遵循这些规范。实测中我让它从零构建了一个英语单词拼写练习的Web应用,首次生成的代码基本能用,然后通过一轮对话补了拼写错误时的抖动提示效果,CSV导入也正常,整个过程就几分钟。这种先出基础版再迭代优化的模式,确实大幅降低了从想法到原型的时间。
而且100万Token的上下文在分析已有项目时优势巨大吧?一次性把整个项目的代码都加载进去。
对,这是短上下文模型做不到的。短上下文只能逐个文件零散分析,而Gemini CLI可以一次性加载整个中小型项目的所有源文件,建立对全局架构的完整理解。我试过让它分析一个百度网盘MCP Server项目,从目录结构、模块划分到装饰器用法,都给出了非常详细准确的解读,对快速上手陌生项目帮助很大。
总结一下的话,Gemini CLI其实填补了一个挺重要的空白——免费、功能完整、跑在终端里的AI Agent工具。每天1000次调用对个人开发者绰绰有余,百万Token的上下文加上MCP生态的扩展性,让它不只是一个聊天工具,而是一个真正能干活的终端助手。如果你日常工作离不开命令行,这个工具确实值得花半小时装起来试试。