DeepSeek V4 Flash免费使用教程:Cherry Studio与CC Switch配置指南

前言
OpenModel 平台近期推出了一项颇具吸引力的活动:DeepSeek V4 Flash 模型完全免费使用,输入和输出 token 均不计费,也不扣除账户余额。对于日常使用 AI 编程工具的开发者来说,这意味着可以零成本获得一个高质量的备用模型。本文将详细介绍这个活动的具体信息,以及如何将其配置到 Cherry Studio 和 CC Switch 中使用。
活动详情与模型特点
免费政策说明
OpenModel 平台当前对 DeepSeek V4 Flash 模型实行完全免费策略:
- 输入 token:免费
- 输出 token:免费
- 速率限制:每分钟 10 次请求(10 RPM),每分钟 100K token(TPM)
- 活动结束时间:官方未明确说明,结束时会另行通知

整体来看,10 RPM 和 100K TPM 的限制中规中矩,对于个人日常使用完全够用。这里解释一下这两个指标的含义:RPM(Requests Per Minute)限制的是单位时间内的请求次数,无论每次请求消耗多少 token;TPM(Tokens Per Minute)限制的是单位时间内处理的 token 总量,包括输入和输出 token 的总和。10 RPM 意味着每 6 秒最多发起一次请求,100K TPM 意味着每分钟最多处理约 10 万个 token。作为参考,OpenAI 免费层级通常提供 3 RPM,Anthropic 免费层级约为 5 RPM,因此 OpenModel 提供的 10 RPM 在免费服务中属于较为宽裕的配额。对于非实时批量处理场景,开发者可以通过请求队列和指数退避策略来优化速率限制下的吞吐量。使用过程中无需任何充值或绑卡操作,注册即可使用。
模型定位:高性价比的备用模型
DeepSeek V4 Flash 虽然在核心编码能力上不如 Claude Opus 4 或 GPT-5.5 等顶级模型,但它具备几个关键优势:
- 支持 1M(一兆)上下文窗口:与 DeepSeek V4 Pro 系列保持一致,能处理超长文本
- 支持深度思考:具备思维链推理能力
- 支持工具调用:可以配合 MCP 等工具使用
关于 1M 上下文窗口的技术意义,上下文窗口(Context Window)是指大语言模型在单次推理中能够处理的最大 token 数量。1M(约 100 万)token 的上下文窗口是当前业界的顶级水平。作为直观参考,1M token 大约相当于 750 万个英文单词或约 50-70 本普通书籍的内容量;对于中文,大约相当于 300-500 万个汉字。这一能力的实现通常依赖于稀疏注意力机制、RoPE 位置编码的外推扩展、以及分层缓存等技术。在实际应用中,超长上下文使得模型可以一次性分析整个代码仓库、完整的技术文档集,或进行跨多个文件的代码重构,而无需将内容切分成多次对话。不过需要注意的是,上下文窗口越大,推理延迟和成本通常也越高,且模型在超长文本中间部分的信息检索准确率(即"大海捞针"能力)可能会有所下降。
关于 DeepSeek V4 系列的技术背景,DeepSeek V4 是深度求索(DeepSeek)公司于 2025 年推出的新一代大语言模型系列。DeepSeek 在模型架构上以创新著称,其前代产品 DeepSeek V3 采用了混合专家(MoE, Mixture of Experts)架构,总参数量达 671B 但每次推理仅激活约 37B 参数,实现了性能与效率的平衡。V4 系列延续了这一技术路线并进一步优化。其中 V4 Flash 定位为轻量高效的快速推理版本,强调响应速度和成本效益;V4 Pro 则是面向复杂任务的高性能版本。DeepSeek 还在训练方法上有重要创新,包括 Multi-head Latent Attention(MLA)注意力机制和 DeepSeekMoE 的细粒度专家分配策略,这些技术使其在同等计算资源下能够达到更优的性能表现。Flash 版本通常会在模型蒸馏、量化或架构精简上做进一步优化,以换取更快的推理速度和更低的部署成本。

推荐的使用策略是:将核心编码任务交给主力模型(如 Claude Opus 4 或 GPT-5.5),而将处理表格、整理文档、检索信息等"杂活"交给 DeepSeek V4 Flash。这样既能保证关键任务的质量,又能节省 API 费用。
重要限制:仅支持 Anthropic 协议
目前 OpenModel 平台的 DeepSeek V4 Flash 仅支持 Anthropic(Claude Code)兼容的 SDK 模式,不支持 OpenAI 的标准 Chat Completions 格式。这意味着在配置时必须选择 Anthropic 协议类型,否则无法正常调用。
这里有必要解释一下两种主流 API 协议的差异。OpenAI 的 Chat Completions API 使用 /v1/chat/completions 端点,以 messages 数组传递对话历史,角色分为 system、user、assistant。而 Anthropic 的 Messages API 使用 /v1/messages 端点,system prompt 作为独立的顶层参数传递,且支持更丰富的内容块(content blocks)结构,包括 text、image、tool_use、tool_result 等类型。两者在认证方式上也不同:OpenAI 使用 Authorization: Bearer 头,Anthropic 使用 x-api-key 头。这种协议差异意味着客户端工具必须明确选择对应的协议类型才能正确通信。
API 的 Base URL 为:https://api.openmodel.ai/v1
注册与获取 API Key
第一步:注册 OpenModel 账号
- 打开 OpenModel 官网
- 点击「快速开始」进入控制台
- 使用 Google 账号一键登录即可完成注册
第二步:创建 API 密钥
登录控制台后,进入 API 密钥管理页面:
- 点击「创建密钥」
- 填写一个任意名称(其他字段无需填写)
- 点击创建,获得 API Key

请务必保存好生成的 Key,后续配置都需要用到。在控制台的用量统计中,你可以看到请求次数在增加,但花费额度始终为零。
在 Cherry Studio 中配置
添加 Anthropic 类型服务商
- 打开 Cherry Studio,进入设置页面
- 点击「添加工具商类型」
- 关键步骤:类型必须选择 Anthropic 模型类型(因为 OpenModel 兼容的是 Claude Code 的 API 协议)
填写 API 配置信息
- API 请求地址:
https://api.openmodel.ai/v1 - 密钥:填入刚才在控制台创建的 API Key
- 点击「获取模型列表」,系统会拉取所有可用模型
选择 DeepSeek V4 Flash 模型
在模型列表中搜索并选择 deepseek-v4-flash:

配置完成后,回到 Cherry Studio 首页,新建聊天时选择 OpenModel 的 DeepSeek V4 Flash 模型即可开始使用。实测支持思考功能、工具调用(如 EXA 的 MCP 联网检索),作为备用模型表现相当出色。
这里提到的 MCP(Model Context Protocol,模型上下文协议)是由 Anthropic 于 2024 年底推出的开放标准协议,旨在为大语言模型提供统一的外部工具和数据源连接方式。在 MCP 架构中,AI 应用作为 MCP Client,各种工具和服务作为 MCP Server,两者通过标准化的 JSON-RPC 协议通信。MCP 的核心价值在于解决了此前每个 AI 应用都需要为每个外部服务单独开发集成接口的 M×N 问题,将其简化为 M+N 的标准化对接。文章中提到的 EXA MCP 联网检索就是一个典型的 MCP Server 实现,它允许模型通过标准接口调用 EXA 的搜索引擎进行实时网络信息检索。目前 MCP 生态已经涵盖了文件系统操作、数据库查询、浏览器控制、代码执行等数百种工具服务。
在 CC Switch 中配置
如果你日常使用 Claude Code 或 Claude Desktop,可以通过 CC Switch 工具一键配置。
CC Switch 是社区开发的一款 Claude Code 配置管理工具,它的核心功能是让用户在多个 API 服务端点之间快速切换,而无需每次手动修改环境变量或配置文件。Claude Code 是 Anthropic 推出的命令行 AI 编程助手,它直接在终端中运行,能够读写文件、执行命令、进行代码搜索和重构。Claude Desktop 则是其桌面客户端版本,提供图形化界面。这两款工具默认连接 Anthropic 官方 API,但通过环境变量配置可以指向任何兼容 Anthropic 协议的第三方端点。CC Switch 正是利用了这一机制,通过模型映射功能,用户可以将 Claude 界面中显示的某个模型名称实际路由到完全不同的后端模型,从而在不改变使用习惯的前提下灵活调度不同的模型资源。
具体配置步骤如下:
- 打开 CC Switch
- 点击加号,选择「自定义配置」
- 服务端点类型:选择「兼容 Claude 的 API 服务端点」
- API Key:填入 OpenModel 的密钥
- 名称随意填写,官网链接可留空
模型映射设置
由于 DeepSeek V4 Flash 并非 Claude 原生模型,你需要进行模型映射:
- 可以将 Claude Haiku 等低能力模型映射到 DeepSeek V4 Flash
- 也可以将 Claude 4.6 等模型映射过去
这样在 Claude Code 或 Claude Desktop 中选择对应模型时,实际调用的就是免费的 DeepSeek V4 Flash。
使用建议与总结
推荐使用场景
| 场景 | 推荐模型 |
|---|---|
| 核心编码任务 | Claude Opus 4 / GPT-5.5 |
| 文档整理、表格处理 | DeepSeek V4 Flash(免费) |
| 信息检索、联网查询 | DeepSeek V4 Flash + MCP |
| 长文本分析(超长上下文) | DeepSeek V4 Flash(1M 上下文) |
注意事项
- 活动结束时间未定,建议关注 OpenModel 官方通知
- 仅支持 Anthropic 兼容协议,不支持 OpenAI 标准格式
- 免费通道有速率限制(10 RPM / 100K TPM),高频使用需注意
- 编码能力有限,核心开发任务建议仍使用主力模型
总的来说,DeepSeek V4 Flash 的限时免费活动为开发者提供了一个零成本的高质量备用模型选择。1M 上下文窗口、深度思考和工具调用的支持使其在处理日常杂务时表现出色。趁活动还在,赶紧配置起来吧。
相关推荐

DeepSeek研究员总结AI智能体使用十大法则
DeepSeek研究员基于AI研究和自主编程实战经验,总结AI智能体(AI Agent)使用的10条通用法则,涵盖角色转变、判断力瓶颈、记忆文件系统、人机协作边界等关键洞察,帮助你高效驾驭AI工具而非被工具掌控。

Agent Harness:从提示词工程到执行环境编排的AI代理新范式
深入解析Agent Harness Engineering的核心理念,了解它如何通过循环执行与上下文隔离突破传统提示词工程和上下文工程的瓶颈,以及在Cursor等现代编程代理中的实践应用。

1FlowBase实战:为DeepSeek V4挂载视觉工具实现多模态能力
详解如何通过1FlowBase编排平台,将视觉模型MIMO 2.5作为工具挂载到DeepSeek V4上,实现Fusion多模态入口。涵盖开始节点配置、LM节点设置、工具挂载与条件触发等完整搭建步骤。