Gemini 3.5 Flash发布:涨价3倍却全面铺开,AI定价逻辑变了

Google发布Gemini 3.5 Flash,全面部署但价格大幅上涨
Google I/O大会上正式发布Gemini 3.5 Flash模型,跳过preview阶段直接全面部署到消费者、开发者和企业端产品中,覆盖数十亿用户。同时推出Interactions API解决多轮对话成本问题,但模型API价格显著上涨,反映AI行业整体涨价趋势。
概述
在Google I/O大会上,Google正式发布了Gemini 3.5 Flash模型。与以往不同的是,这次跳过了-preview阶段直接进入通用可用状态,并被部署到Google的几乎所有核心产品中。然而,伴随性能提升而来的是显著的价格上涨——这一趋势正在整个AI行业蔓延。

Gemini 3.5 Flash全面铺开:覆盖数十亿用户
Google表示,3.5 Flash已面向全球数十亿用户开放,具体部署包括:
- 消费者端:通过Gemini应用和Google搜索中的AI Mode提供服务
- 开发者端:集成到Google Antigravity(agent-first开发平台)、Google AI Studio和Android Studio中的Gemini API
- 企业端:通过Gemini Enterprise Agent Platform和Gemini Enterprise提供
从技术规格来看,模型ID为gemini-3.5-flash,知识截止日期为2025年1月,支持1,048,576个输入token和65,536个最大输出token。功能上与此前的Gemini 3.x系列基本一致,但暂不支持computer use。
值得关注的是,Google同时推出了新的Interactions API(目前为beta版)。这一API对应的是AI应用开发中一个长期存在的工程痛点:多轮对话的上下文管理。
传统无状态API设计源于HTTP协议的无状态哲学,每次请求携带完整上下文确保了服务端的水平扩展能力,但在多轮对话场景下代价高昂。以一个100轮对话为例,若每轮平均200 token,到第100轮时单次请求的输入token已达约10,000个,累计成本呈二次方增长。传统API调用是无状态的,开发者需要在每次请求时将完整对话历史作为输入发送,随着对话轮次增加,这会导致输入token数量线性增长,成本急剧上升。
OpenAI在2025年初推出的Responses API率先引入了服务端会话状态存储,允许API以会话ID引用历史,而非每次传输完整上下文。Google的Interactions API正是对这一模式的跟进,本质上是将「有状态对话管理」从应用层下沉到基础设施层。服务端状态管理通过在云端维护KV Cache或压缩后的对话摘要,将每次请求的输入token降至仅当前轮次内容,理论上可将长对话成本降低60%-80%。对于构建客服机器人、长期任务代理(Agent)等场景的开发者,这一功能可以显著降低成本并简化架构,但代价是架构耦合度提升——开发者需要依赖特定云服务商的会话生命周期管理,迁移成本随之上升,同时也意味着对话数据将存储在云端,带来新的隐私考量。
API价格大幅上涨:Flash不再"廉价
相关推荐
科技前沿GitHub Agent HQ发布:AI编程工具进入平台化竞争时代
GitHub Universe大会发布Agent HQ平台,统一管理编码Agent,Copilot升级支持多模型集成。同期OpenAI完成重组,Anthropic新模型测试,NVIDIA开源系列AI模型,AI编程工具格局加速整合。
科技前沿Gemini 3.5 Flash在GDPval基准上实现巨大飞跃
Google Gemini 3.5 Flash在GDPval基准测试中超越Gemini 3.1 Pro,轻量级Flash模型借助后训练技术逼近前沿水平,重新定义性能与成本的平衡点,为AI应用开发者带来重大利好。
科技前沿Google Gemini Antigravity周配额三倍提升,AI编程不再受限
Google Gemini团队再次将Antigravity周配额提升至三倍,继日配额提升后再次加码。本文解析此次配额调整对开发者的实际影响,以及在AI编程助手竞争格局中的战略意义。