千问核心团队动荡，OpenAI谷歌新模型密集发布｜AI日报

3月5日的AI行业可谓热闹非凡：MiniMax发布音乐模型新版本，阿里千问核心负责人接连离职引发关注，OpenAI和谷歌也分别推出新模型。本文梳理当日重要动态，深入解读行业变化。

千问核心团队震荡：考核指标之争？

阿里千问大模型的技术负责人林俊阳宣布离职，而近期陆续离职的还有多位千问大模型的核心负责人，这一波人事变动引发了业界广泛关注。

内部人士透露,此次离职似乎并非个人意愿

据内部人士透露，此次离职似乎并非个人意愿。有消息称，高层将基础研发团队的考核指标改为了日活和月活用户数量——这是一种典型的消费级产品考核方式，用来衡量基础模型研发团队显然不太合理。基础研究的价值往往体现在技术突破和长期积累上，而非短期的用户增长数据。

这一争议折射出AI行业从「技术驱动」向「产品驱动」转型期的普遍张力。在学术界和早期AI实验室，基础研究的评价体系通常围绕论文发表、Benchmark排名、模型能力突破等技术指标展开；而互联网公司的考核文化天然倾向于可量化的增长数据。阿里作为电商和云计算起家的科技巨头，将消费级产品思维移植到基础模型团队，在组织管理上并不罕见，但其副作用同样显著——基础模型的研发周期往往以年为单位，短期用户数据难以反映技术积累的真实价值，这种错配容易造成团队目标混乱，进而引发核心人才出走。

也有知情人士透露，他们是因为内部问题被迫选择离职。林俊阳在朋友圈表示"需要休息"，并称"曾经的同事们可以继续干，没有问题"。

曾经的同事们可以继续干,没有问题

这一事件折射出当前AI行业的一个深层矛盾：基础研究与商业化之间的张力。当管理层急于看到商业回报时，用消费级指标考核研发团队，可能会导致核心人才流失。说个细节，智谱AI在同一天发布了招聘公告，放出从预训练到后训练的多个岗位，工作地点位于北京或上海，似乎在趁势吸纳人才。

MiniMax Music 2.5+：AI音乐创作能力再升级

MiniMax发布了MiniMax Music 2.5+音乐模型，带来了几项重要升级：

新增纯音乐创作能力：不再局限于歌曲生成，可以创作无人声的纯器乐作品
多风格支持：涵盖古典、极简、电子等多种音乐风格
跨风格融合：支持不同风格之间的混搭创作
音频质量提升：整体音质有明显改善

新版本已登陆MiniMax Audio平台，API同步开放。

AI音乐生成经历了从规则合成、统计模型到深度学习的三代演进。早期系统依赖乐理规则硬编码，灵活性极差；2016年前后，基于LSTM的模型（如Google Magenta项目）开始能够生成具有一定连贯性的旋律；2020年代，扩散模型（Diffusion Model）和Transformer架构的引入使音频质量产生质的飞跃，Suno、Udio等产品相继涌现。MiniMax Music 2.5+新增的纯器乐生成能力，技术上需要模型在没有歌词语义锚点的情况下，仅凭风格描述和情绪指令驾驭复杂的多声部编排，对模型的音乐结构理解能力要求更高。

纯音乐创作能力的加入是一个值得关注的方向——这意味着AI音乐工具正在从"辅助歌曲创作"向"全品类音乐生产"演进，正式进入影视配乐、游戏OST等专业级应用赛道，市场空间从C端娱乐延伸至B端内容生产，未来在影视配乐、游戏音效、背景音乐等场景中的应用空间将进一步打开。

OpenAI发布GPT 5.3 Instant：对话体验更自然

OpenAI推出了GPT 5.3 Instant模型，相比GPT 5.2的主要改进在于：

对话更流畅：减少了此前版本中被用户诟病的"塑造式对话风格"
交互体验优化：整体对话感更加自然

此外，OpenAI表示GPT 5.4也即将到来，"比想象中更快"。

OpenAI从GPT-5.2到5.3再到即将发布的5.4，密集的版本节奏背后是大模型竞争从「能力军备赛」转向「体验精细化」的行业信号。早期大模型竞争聚焦于参数规模和Benchmark分数，但随着主流模型能力趋于收敛，用户对「对话是否自然」「是否有说教感」等体验细节的敏感度显著上升。GPT-5.3重点优化的「塑造式对话风格」问题，本质上是RLHF（基于人类反馈的强化学习）训练过程中过度对齐导致的副作用——模型为迎合安全性评分而产生冗余的免责声明和说教语气。快速迭代小版本修复体验问题，既能保持市场热度，又能积累真实用户反馈用于下一轮训练，已成为头部厂商的标准运营策略。

OpenAI正在加速迭代节奏，从5.2到5.3再到即将推出的5.4，版本更新频率明显加快，这也反映出当前大模型竞争的激烈程度。

谷歌Gemini 3.1 Flashlight：高性价比轻量模型

谷歌发布了轻量级模型Gemini 3.1 Flashlight，定位为高性价比的小模型：

价格方面输入0.25美元,输出1.5美元

价格：输入0.25美元/百万Token，输出1.5美元/百万Token
性能：基准测试中略胜Gemini 2.5 Flash，且价格更低
速度：输出速度大幅提升

Gemini 3.1 Flashlight的定价策略体现了大模型商业化中「薄利多销」的平台逻辑。Token作为大模型计费的基本单位，1百万Token大约相当于75万个英文单词或约150万个汉字，对于高频API调用场景（如客服机器人、内容审核、代码补全），Token成本直接决定产品的商业可行性。轻量级模型（Flash/Lite系列）通常通过知识蒸馏、量化压缩等技术从旗舰模型中提炼能力，在牺牲部分复杂推理能力的前提下，将推理速度提升3-10倍、成本降低60-80%。

在谷歌的模型产品线中，Flashlight系列一直扮演着"跑量"的角色。更低的价格配合更好的性能，使其在API调用场景中具备较强的竞争力，核心竞争力在于「足够好+极低成本」的组合，尤其适合对成本敏感但对质量有一定要求的中小开发者和高并发应用场景。

火山引擎Seedance 2.0 API定价公布

火山引擎公布了视频生成模型Seedance 2.0的API价格：

纯文本生成视频：28元/百万Token
包含视频输入：46元/百万Token

不过目前暂不支持接入API

不过目前暂不支持接入API，仅公布了定价方案。

Seedance 2.0视频生成定价远高于文本模型，根源在于视频生成的计算复杂度呈指数级增长。生成一段5秒、720P的视频，模型需要在时间维度上保持帧间一致性，同时处理运动轨迹、光影变化、物理规律等多维约束，其计算量约为同等质量图像生成的100-500倍。当前主流视频生成模型（包括Sora、Runway Gen-3、Kling等）普遍采用基于扩散模型的时空注意力机制，每次推理需要在数十个去噪步骤中反复计算高维张量，对GPU显存和算力的消耗极为密集。这也解释了为何视频生成API普遍采用「先公布定价、延迟开放」的策略——大规模并发调用对基础设施的压力测试需要充分准备。从价格来看，视频生成的成本仍然显著高于文本和图像生成，这也反映了视频模型在算力消耗上的巨大开销。

总结

3月5日的AI行业动态呈现出几个明显趋势：一是人才流动加剧，千问团队的变动和智谱的招聘形成鲜明对比；二是模型迭代加速，OpenAI和谷歌都在快速推出新版本；三是应用场景拓宽，从音乐到视频，AI的创作能力边界不断扩展。对于从业者而言，如何在商业化压力与技术积累之间找到平衡，仍然是一个需要持续思考的问题。

核心要点

阿里千问多位核心负责人离职，疑因考核指标从技术导向转为日活月活等消费级指标
MiniMax Music 2.5+新增纯音乐创作能力，支持多风格融合，API同步开放
OpenAI发布GPT 5.3 Instant，对话更自然流畅，GPT 5.4也即将推出
谷歌推出Gemini 3.1 Flashlight轻量级模型，性能略超前代且价格更低
火山引擎公布Seedance 2.0视频生成API定价，但暂未开放接入

千问核心团队动荡，OpenAI谷歌新模型密集发布｜AI日报

千问核心团队震荡：考核指标之争？

MiniMax Music 2.5+：AI音乐创作能力再升级

OpenAI发布GPT 5.3 Instant：对话体验更自然

谷歌Gemini 3.1 Flashlight：高性价比轻量模型

火山引擎Seedance 2.0 API定价公布

总结

核心要点

相关推荐

GitHub Agent HQ发布：AI编程工具进入平台化竞争时代

Gemini 3.5 Flash在GDPval基准上实现巨大飞跃

Google Gemini Antigravity周配额三倍提升，AI编程不再受限