Gemini CLI支持任意大模型：EasyLLM CLI开源改造方案详解

Google开源的Gemini CLI凭借强大的Agent能力在GitHub上迅速斩获61K Star，成为目前最热门的命令行AI工具。AI Agent（智能体）是指能够自主感知环境、制定计划并执行多步骤任务的AI系统，区别于简单的问答式聊天机器人。在编程领域，Agent能力意味着AI不仅能生成代码片段，还能自主读取项目文件、分析代码结构、执行Shell命令、调用外部工具，并根据执行结果动态调整策略。将这种能力封装为命令行工具，使得AI可以直接在开发者最熟悉的终端环境中作为"结对编程伙伴"工作。

然而，账号注册门槛、模型锁定、数据安全等问题限制了它的使用场景。B站UP主"花园老师"对Gemini CLI进行了深度改造，推出了支持任意大模型（包括本地模型）的开源版本——EasyLLM CLI（简称ELC），并且实现了代码级API集成能力。

Gemini CLI改造项目介绍

Gemini CLI为什么值得关注

Gemini CLI是Google开发的一款开源AI Agent命令行工具，在设计上直接对标Anthropic的Claude Code。Claude Code是这一赛道的先行者，于2025年初推出后迅速成为专业开发者的首选AI编码工具，它基于Claude系列模型，以出色的代码理解和生成能力著称。然而Claude Code采用付费订阅模式（需要Claude Pro/Max订阅），且对中国大陆用户存在访问限制和封禁风险。Google推出Gemini CLI的战略意图非常明确：通过开源代码和免费额度（每天1000次请求）快速抢占市场份额，这是Google在AI开发者工具领域对Anthropic发起的正面竞争。

两者的主要功能和设计理念基本一致，核心区别在于Gemini CLI默认集成了Google自家的Gemini 2.5 Pro模型，代码完全开源，并且提供了非常慷慨的免费调用额度。

在当前Claude Code对中国用户频繁封禁的背景下，Gemini CLI成为了一个极具吸引力的替代方案。它的核心特点包括：

出色的编码能力：百万级Token上下文窗口，覆盖代码编写全生命周期管理。Token是大语言模型处理文本的基本单位，一个中文字大约对应1-2个Token。传统模型的上下文窗口通常在4K-32K Token之间，而Gemini 2.5 Pro的百万级Token上下文窗口意味着它可以一次性加载并理解一个中大型软件项目的完整代码库——包括数百个源文件、配置文件和文档。这对于代码重构、跨文件依赖分析、全局架构理解等任务至关重要，是Agent能够完成复杂编码任务的基础能力。
多模态处理：支持图像、视频、音频文件的分析处理
智能工作流：内置上下文管理机制、安全沙盒环境和无限循环保护
MCP协议支持：可通过MCP接入自定义API或第三方工具。MCP（Model Context Protocol，模型上下文协议）是Anthropic于2024年底提出并开源的标准化协议，旨在解决大语言模型与外部工具和数据源之间的连接问题。在MCP出现之前，每个AI工具都需要为每个外部服务编写专门的集成代码。MCP定义了一套统一的通信标准：AI应用作为"客户端"，外部工具和服务作为"MCP Server"，双方通过标准化的JSON-RPC消息进行交互。这类似于USB协议统一了外设接口——开发者只需编写一次MCP Server，就能被所有支持MCP的AI工具调用。目前MCP已获得OpenAI、Google等主要AI厂商的支持，正在成为AI工具生态的事实标准。
自定义用户记忆：能够记住用户偏好和项目上下文

实际体验中，Gemini CLI可以完成相当复杂的任务。例如让它检索最近一个月最热门的AI论文，总结核心内容并编写精美网页展示；或者直接分析一段视频的音频内容，自动生成中文文章。配合MCP Server，它还能分析项目技术架构并自动绘制架构图。

为什么需要改造Gemini CLI：五大痛点分析

尽管Gemini CLI本身非常优秀，但在实际使用中存在几个明显的限制：

账号注册门槛高

使用Gemini CLI需要先注册Google Cloud账号，登录后还需要配置Project ID环境变量。这一步对于很多普通用户来说就已经是不小的障碍。

模型降级策略不透明

虽然Gemini 2.5 Pro编码能力不错，但Google存在降级策略——很多情况下你的任务实际上是由降级后的Gemini Flash完成的。模型降级（Model Downgrade/Routing）是AI服务商常用的成本控制策略：高性能模型（如Gemini 2.5 Pro）的推理成本远高于轻量级模型（如Gemini Flash），差距可达10-50倍。为了在免费额度下维持服务可用性，服务商会根据请求复杂度、服务器负载、用户使用频率等因素，将部分请求路由到成本更低的模型处理。这种策略对用户来说是不透明的——API返回的结果看起来格式一致，但实际推理质量可能大幅下降。这也解释了为什么有时候任务完成质量很好，有时候却突然"降智"。

免费策略不可持续

"前期免费、后期收割"是互联网产品的老套路。如果能使用自定义模型，就不必担心后续定价策略的变化。而且不同任务适合不同模型，固定使用Gemini并非最优选择。

数据安全风险

处理企业内部代码或敏感文件时，将数据发送到海外模型存在泄露风险。在企业级应用场景中，数据安全合规是采用AI工具的首要考量。中国的《数据安全法》和《个人信息保护法》对数据跨境传输有严格规定，许多行业（如金融、医疗、政务）明确要求敏感数据不得离开境内服务器。很多公司的安全合规要求只能使用本地部署的模型，这直接限制了Gemini CLI在企业场景中的应用。本地模型部署是指将大语言模型运行在企业自有的服务器或私有云上，所有数据处理在本地完成，不经过任何外部网络。常见的本地部署方案包括使用Ollama、vLLM等推理框架运行开源模型（如Llama、Qwen、DeepSeek等），这些框架通常提供与云端API兼容的OpenAI格式接口，为后续的工具适配提供了便利。

缺乏代码集成能力

官方只提供了CLI交互方式，无法直接在代码中调用其强大的Agent能力，限制了将其集成到自有项目或业务流程中的可能性。

EasyLLM CLI改造方案详解

基于以上痛点，花园老师对Gemini CLI的核心代码进行了深度分析和改造，推出了EasyLLM CLI（ELC）。这个改造版本的核心思路是：将Agent核心逻辑与CLI界面逻辑解耦，同时将模型调用层抽象为可配置的接口。

解耦（Decoupling）是软件工程中的核心设计原则，指将系统的不同功能模块分离，使它们可以独立变化和复用。在Gemini CLI的原始架构中，Agent的核心逻辑（任务规划、工具调用、上下文管理、多轮对话状态机等）与CLI的界面逻辑（终端渲染、用户输入处理、进度显示等）存在一定程度的耦合。EasyLLM CLI的改造将这两层彻底分离：底层的ELCAgent类封装了完整的Agent能力，可以在任何Node.js环境中独立运行；上层的CLI界面只是ELCAgent的一个"消费者"。这种架构使得开发者可以将同样的Agent能力嵌入到Web服务、Electron桌面应用、自动化脚本等任何场景中，极大扩展了工具的适用范围。

安装与使用方式

使用非常简单，前提是本地有Node.js环境：

# 方式一：直接使用npx运行
npx elc

# 方式二：全局安装后运行
npm install -g elc
elc

在默认不指定任何环境变量的情况下，ELC仍然可以使用Google原生的认证方式和Gemini模型。要切换自定义模型，只需配置四个必填环境变量：

是否启用自定义模型（开关）
自定义模型的API Key
自定义模型的API端点
自定义模型的名称

环境变量可以通过项目目录下的.env文件配置，也可以通过export命令注入。配置成功后，CLI界面右下角会显示当前使用的模型提供商和模型名称。由于大多数国产模型和本地部署框架（如Ollama、vLLM）都提供了兼容OpenAI API格式的接口，因此只需将API端点指向对应的服务地址即可完成切换，无需额外的适配工作。

多模型兼容性测试结果

花园老师对多种主流模型进行了系统性测试，覆盖以下维度：

测试维度	说明
思考过程	是否具备推理能力
基础对话	能否完成简单的多轮任务
工具调用	读取文件等基础工具能力
多模态	能否分析图片内容
MCP	能否调用自定义MCP Server
复杂任务	多工具协作完成的综合任务

测试结果显示，目前几个热门模型（如Kimi K2、豆包等）基本都能完成较复杂的任务，达到甚至超过原版Gemini 2.5 Pro的效果。例如使用Kimi K2时，让它分析项目技术架构并编写介绍网站，生成效果非常不错；切换到火山引擎的豆包模型后，多模态分析任务同样完成得很好。值得注意的是，工具调用（Function Calling）能力是Agent框架对模型的核心要求——模型需要能够理解何时应该调用工具、调用哪个工具、以及如何构造正确的参数。并非所有模型都具备良好的工具调用能力，这也是兼容性测试中最关键的评估维度。

代码级API集成能力

这是改造中最有价值的部分。花园老师将Gemini Agent的核心逻辑与CLI界面进行了解耦，提供了一个ELCAgent类，可以直接在Node.js程序中集成Agent功能。

该API支持：

自定义模型提供商配置
自定义工具调用
MCP Server参数化接入
自定义系统提示词
基本对话、文件操作等多种使用场景

核心API设计非常简洁：一个run方法执行任务，配合获取所有结果和最后一次结果的方法，开发者可以根据需求灵活调用。这种编程式接口的意义在于，开发者可以在自己的应用中构建复杂的自动化工作流——例如在代码提交时自动触发Agent进行代码审查，或者在收到用户需求后自动生成技术方案文档。

EasyLLM CLI的实际应用场景

这个改造版本打开了很多新的可能性：

企业内部开发：接入本地部署的大模型（通过Ollama、vLLM等框架运行Qwen、DeepSeek等开源模型），在保证数据安全的前提下享受Agent编码能力，所有代码和对话数据完全不离开企业内网
自动化流水线：通过代码API将Agent集成到CI/CD或其他自动化流程中，例如在GitHub Actions中自动执行代码审查、生成测试用例或更新项目文档
模型对比评测：快速切换不同模型，在相同Agent框架下对比各模型的实际表现，这对于企业选型和模型能力评估非常有价值
定制化Agent应用：基于ELCAgent类构建面向特定业务场景的智能助手，例如运维诊断Agent、数据分析Agent或技术文档生成Agent

总结

Gemini CLI本身是一个架构设计非常优秀的开源Agent工具，这也是它能在短时间内获得60K+ Star的根本原因。EasyLLM CLI的改造并非否定原版的价值，而是在其优秀架构基础上，解决了模型锁定、数据安全和代码集成三个关键问题。

对于国内开发者而言，这个改造版本的意义在于：我们终于可以用一个成熟的Agent框架，搭配自己选择的模型，在自己掌控的环境中完成复杂的编码和分析任务。 这种"框架与模型分离"的思路也代表了AI开发工具的一个重要趋势——随着开源模型能力的快速提升和MCP等标准协议的普及，开发者将拥有越来越大的自由度来组合最适合自己需求的AI工具栈。项目已开源，感兴趣的开发者可以直接上手体验。

Gemini CLI改造项目介绍

Gemini CLI为什么值得关注

在当前Claude Code对中国用户频繁封禁的背景下，Gemini CLI成为了一个极具吸引力的替代方案。它的核心特点包括：

出色的编码能力：百万级Token上下文窗口，覆盖代码编写全生命周期管理。Token是大语言模型处理文本的基本单位，一个中文字大约对应1-2个Token。传统模型的上下文窗口通常在4K-32K Token之间，而Gemini 2.5 Pro的百万级Token上下文窗口意味着它可以一次性加载并理解一个中大型软件项目的完整代码库——包括数百个源文件、配置文件和文档。这对于代码重构、跨文件依赖分析、全局架构理解等任务至关重要，是Agent能够完成复杂编码任务的基础能力。
多模态处理：支持图像、视频、音频文件的分析处理
智能工作流：内置上下文管理机制、安全沙盒环境和无限循环保护
MCP协议支持：可通过MCP接入自定义API或第三方工具。MCP（Model Context Protocol，模型上下文协议）是Anthropic于2024年底提出并开源的标准化协议，旨在解决大语言模型与外部工具和数据源之间的连接问题。在MCP出现之前，每个AI工具都需要为每个外部服务编写专门的集成代码。MCP定义了一套统一的通信标准：AI应用作为"客户端"，外部工具和服务作为"MCP Server"，双方通过标准化的JSON-RPC消息进行交互。这类似于USB协议统一了外设接口——开发者只需编写一次MCP Server，就能被所有支持MCP的AI工具调用。目前MCP已获得OpenAI、Google等主要AI厂商的支持，正在成为AI工具生态的事实标准。
自定义用户记忆：能够记住用户偏好和项目上下文