今天是3月20号,AI圈的消息密度属实有点高。我刷了一上午,感觉各家都在憋着劲儿集中放大招。其中最让我意外的有两件事,一个是谷歌Gemini CLI要限制免费用户了,另一个是小米居然同时发了三款大模型。咱们先从谷歌这边聊起?
对,谷歌这个动作其实挺值得说的。Gemini CLI嘛,就是谷歌给开发者用的一个命令行AI工具,你在终端里直接就能调用Gemini模型写代码、做推理,不用开网页,效率很高。但现在谷歌宣布,一周之后免费用户就不能用Pro模型了,只能用Flash模型。
这两个模型差别大吗?
差别还是挺明显的。Pro模型参数规模更大,复杂推理能力更强,你要是做多步逻辑推演、长文本分析、高质量代码生成,Pro是首选。Flash呢,主打一个快,延迟低、吞吐高,但参数规模小,更适合轻量级任务。你可以类比成,Pro是全功能旗舰机,Flash是性价比入门款。
嗯,其实这种分层策略也不新鲜了。OpenAI的GPT-4o和4o mini,Anthropic的Sonnet和Haiku,都是这个套路——好的留给付费用户,基础款免费用。
没错,本质上就是商业化分层嘛。免费模型负责拉新,高级模型负责变现。谷歌官方也建议开发者迁移到AI Studio或者Vertex AI平台去,这样可以自己管配额和费用。不过对那些之前一直白嫖Pro模型的个人开发者来说,确实得重新规划一下工作流了。
说白了就是免费午餐越来越少了。好,咱们聊聊今天最热闹的——小米。一口气发了三个模型,这阵仗不小。
确实,这次小米是把推理、多模态、语音合成三条线一起推出来了。先说旗舰款MiMo VL Pro,总参数量1T,但激活参数只有42B。一看这个比例就知道是MoE架构,也就是混合专家架构。
对,这个架构现在很流行。简单说就是模型里有很多个'专家'子网络,每次推理的时候只激活一部分来干活,不是所有参数都上。DeepSeek-V3、Mixtral都是这个路子。
你看你比我还熟。对,这样做的好处就是知识容量大但计算开销可控。而且它支持100万上下文窗口,大概能处理75万个英文单词,分析长文档、理解大型代码库都没问题。小米说实际体感已经接近GPT-4.6级别,定价上还用了阶梯策略,用得越多越便宜。
那第二个,MiMo VL Omni,名字里带Omni,全模态的?
对,这个模型是从预训练阶段就原生支持文本、图像、音频多种模态的输入输出,不是后期拼接的。这个区别很关键——原生多模态意味着模型能在不同模态之间建立更深的语义关联。比如看一张图片里的文字,然后用语音解说出来,这种跨模态融合是拼接方案很难做好的。
而且我注意到它还强调了智能体能力,就是不光能理解,还能行动。
嗯,这是2025年各家都在押注的方向。模型不只是跟你聊天,还能帮你浏览网页、操作软件、调用API完成任务。小米说在智能体任务上表现可圈可点,综合能力超过了Gemini 3 Pro。而且价格很有意思,百万token输入才0.4美元,输出2美元,在同级别里算很有竞争力了。
第三个是TTS,语音合成模型。这个我其实挺好奇的,小米做这个是不是跟它的硬件生态有关系?
肯定有关系。MiMo VL TTS用了上亿小时的语音数据做预训练,这个数据量远超传统TTS系统。它最大的亮点是精细控制——能在同一句话里完成语气转折和情感递变,甚至唱歌的时候音高和节奏都能准确表达。你想想,这要是放到小米的智能音箱、手机语音助手里,体验提升会很明显。
小米这次三模型齐发,感觉野心不小,不只是做终端设备了,是要在模型层也站住脚。
对,而且三款模型的API都已经开放了,Pro还能在MiMo Studio在线体验。这说明小米不光是秀肌肉,是真的要让开发者用起来。
好,再快速聊两个。Trae IDE今天上线了Linux版,这个对开发者来说挺实际的。
Trae是字节跳动做的AI编程IDE,之前只有Mac和Windows版。今天Linux版上了,中国版和国际版同步,DEB和RPM两种包都有,基本覆盖了所有主流Linux发行版。功能跟其他平台完全一致,包括它那个特色的Solo模式——你描述需求,AI自主规划路径生成代码,不是简单的代码补全。
Linux用户群体虽然在消费端不大,但在服务器端和开源社区里是主力。补齐这块,对争夺DevOps工程师群体很有意义。
没错,AI编程工具的竞争已经从功能比拼延伸到平台覆盖和生态建设了。Cursor、Copilot、Windsurf都在卷,Trae选择全平台策略,是个聪明的打法。
最后还有两个消息。腾讯混元3.0在内测了,预计4月发布,主打推理和智能体能力。百度千帆发了一个4B参数的端到端OCR模型,而且开源了。
百度这个千帆OCR我觉得值得多说两句。传统OCR是流水线式的,版面分析、文字检测、文字识别、语义理解,一步一步来,误差逐级累积。千帆OCR是端到端的,一个模型直接从文档图像输出结构化结果,省掉了中间环节的信息损耗。而且4B参数很轻量,消费级GPU甚至部分边缘设备都能跑,再加上开源,金融、法律、医疗这些对数据敏感的行业可以私有化部署,不用把文档传到云上去。
今天回顾下来,其实能看到几个很清晰的趋势。头部厂商商业化路径越来越明确,谷歌的分层就是典型;国内进入了密集发布期,小米、腾讯、百度都在动;工具层面,平台覆盖和易用性成了新的竞争点。对开发者来说,选择确实越来越多了,但怎么在这么多模型和工具里做出最优判断,反而变成了一个新挑战。
其实我觉得这恰恰说明行业在走向成熟。不再是一个模型打天下,而是不同场景、不同预算、不同需求都有对应的选择。开发者要做的,就是想清楚自己的核心需求是什么,然后去匹配最合适的方案,而不是盲目追最大最贵的模型。