Gemini 3.5 Flash发布：涨价3倍却全面铺开，AI定价逻辑变了

概述

在Google I/O大会上，Google正式发布了Gemini 3.5 Flash模型。与以往不同的是，这次跳过了-preview阶段直接进入通用可用状态，并被部署到Google的几乎所有核心产品中。然而，伴随性能提升而来的是显著的价格上涨——这一趋势正在整个AI行业蔓延。

Gemini 3.5 Flash发布：涨价但全面部署

Gemini 3.5 Flash全面铺开：覆盖数十亿用户

Google表示，3.5 Flash已面向全球数十亿用户开放，具体部署包括：

消费者端：通过Gemini应用和Google搜索中的AI Mode提供服务
开发者端：集成到Google Antigravity（agent-first开发平台）、Google AI Studio和Android Studio中的Gemini API
企业端：通过Gemini Enterprise Agent Platform和Gemini Enterprise提供

从技术规格来看，模型ID为gemini-3.5-flash，知识截止日期为2025年1月，支持1,048,576个输入token和65,536个最大输出token。功能上与此前的Gemini 3.x系列基本一致，但暂不支持computer use。

值得关注的是，Google同时推出了新的Interactions API（目前为beta版）。这一API对应的是AI应用开发中一个长期存在的工程痛点：多轮对话的上下文管理。

传统无状态API设计源于HTTP协议的无状态哲学，每次请求携带完整上下文确保了服务端的水平扩展能力，但在多轮对话场景下代价高昂。以一个100轮对话为例，若每轮平均200 token，到第100轮时单次请求的输入token已达约10,000个，累计成本呈二次方增长。传统API调用是无状态的，开发者需要在每次请求时将完整对话历史作为输入发送，随着对话轮次增加，这会导致输入token数量线性增长，成本急剧上升。

OpenAI在2025年初推出的Responses API率先引入了服务端会话状态存储，允许API以会话ID引用历史，而非每次传输完整上下文。Google的Interactions API正是对这一模式的跟进，本质上是将「有状态对话管理」从应用层下沉到基础设施层。服务端状态管理通过在云端维护KV Cache或压缩后的对话摘要，将每次请求的输入token降至仅当前轮次内容，理论上可将长对话成本降低60%-80%。对于构建客服机器人、长期任务代理（Agent）等场景的开发者，这一功能可以显著降低成本并简化架构，但代价是架构耦合度提升——开发者需要依赖特定云服务商的会话生命周期管理，迁移成本随之上升，同时也意味着对话数据将存储在云端，带来新的隐私考量。

Gemini 3.5 Flash发布：涨价3倍却全面铺开，AI定价逻辑变了

概述

Gemini 3.5 Flash全面铺开：覆盖数十亿用户

API价格大幅上涨：Flash不再"廉价

相关推荐

GitHub Agent HQ发布：AI编程工具进入平台化竞争时代

Gemini 3.5 Flash在GDPval基准上实现巨大飞跃

Google Gemini Antigravity周配额三倍提升，AI编程不再受限