千问上线400+新功能，文心5.0与多款大模型集中发布

2025年1月16日，AI行业迎来密集更新：阿里千问APP大规模升级、百度文心大模型发布新版本、美团和阶跃星辰也带来重磅产品。本文梳理当日核心动态，解读各家最新进展。

千问APP全面升级：400+新功能打通阿里生态

阿里千问APP本次更新力度堪称史上最大，一次性上线超过400项新功能。其中最引人注目的是任务助理功能的上线，覆盖了办公、咨询、调研、应用开发、生活娱乐等大部分日常使用场景。

千问的"任务助理"功能本质上是AI Agent（智能代理）技术的落地应用。AI Agent是指能够感知环境、自主规划并执行多步骤任务的AI系统，与传统的单轮问答模型有本质区别。Agent系统通常具备工具调用（Tool Use）、记忆管理和任务分解能力，能够将复杂目标拆解为一系列子任务并依次执行。接入支付宝、淘宝等生态后，千问实际上获得了"操作真实世界"的能力，这在技术上依赖于Function Calling（函数调用）机制——模型可以识别用户意图，自动调用对应的API完成下单、支付等操作，而无需用户手动切换应用。

更关键的是，千问宣布全面接入支付宝、淘宝、高德地图等阿里生态。接入后，用户可以直接通过千问完成点外卖、购物、订机票等操作，实现真正意义上的AI购物助手。这种"超级入口"模式与苹果Siri深度集成iOS生态的思路高度相似，但依托阿里庞大的电商和支付基础设施，商业化潜力更为直接。这意味着千问正在从一个对话式AI工具，进化为一个能够调度阿里系服务的超级智能入口。

目前该功能已向所有用户开放测试，详细功能列表可在千问APP微信公众号查阅。这一举措体现了阿里将大模型深度嵌入自身商业生态的战略意图——当AI能直接帮用户下单消费时，其商业价值将远超单纯的信息问答。

文心大模型ERNIE 5.0 0110版本发布

百度发布了文心大模型ERNIE 5.0的0110版本。在LMARENA文本排行榜上，该版本排名全球第八，展现出强劲的综合实力。

LMARENA（原名Chatbot Arena）是由加州大学伯克利分校团队创建的大模型评测平台，采用"人类偏好投票"的方式对模型进行排名，而非依赖固定的标准化题库。其核心机制是让真实用户在不知道模型身份的情况下，对两个模型的回答进行盲测比较，最终通过Elo评分系统（源自国际象棋竞技排名算法）计算综合排名。这种评测方式被认为比传统基准测试更能反映模型在真实使用场景中的表现，因为它规避了"刷榜"问题——模型无法针对性地过拟合人类偏好数据。文心ERNIE 5.0在该榜单排名全球第八，意味着其综合对话质量已获得大量真实用户的认可，而非仅在特定学术数据集上表现优异。

文心大模型ERNIE 5.0 0110版本发布

本次升级重点强化了两大核心能力：数学能力与编码能力。此外，多个垂直领域的专业能力也得到显著提升，包括商业、金融、医学等职业类别。这表明百度正在推动文心大模型从通用能力向专业领域深度渗透，目前可在文心官网直接体验。

美团与OpenAI的新动作

美团发布LongChat Flash Thinking 260B

美团推出了LongChat Flash Thinking 260B模型，主打深度思考能力，在多项基准测试中排名靠前。

多项基准测试中排名靠前

模型名称中的"260B"指参数量为2600亿，属于超大规模语言模型范畴。值得注意的是，现代超大参数模型通常并非全量激活所有参数，而是采用MoE（Mixture of Experts，混合专家）架构——每次推理时只激活其中一小部分"专家"子网络，从而在保持高参数总量的同时，大幅降低单次推理的计算成本。GPT-4、Mixtral等主流大模型均采用类似架构。"深度思考"能力则通常对应Chain-of-Thought（思维链）或更进一步的"慢思考"推理机制，模型在给出最终答案前会生成大量中间推理步骤，类似于人类解题时的草稿过程，显著提升复杂问题的准确率。

目前该模型可通过LongChat官网在线体验，同时也提供API接口，方便开发者集成使用。美团作为本地生活服务巨头，持续投入大模型研发，其技术积累不容小觑。

GPT-5.2 Codex上线Responses API

OpenAI宣布GPT-5.2 Codex已在Responses API中提供，定价与GPT-5.2相同。开发者可以使用任何IDE或代理编码框架直接调用，进一步降低了AI编程的接入门槛。

阶跃星辰语音模型登顶全球第一

阶跃星辰开源语言模型Step-2-DOR 1.1在权威排行榜Artificial Analysis Speech Reasoning中排名全球第一。该榜单是目前业界评估原生语言模型最权威的第三方基准之一。

阶跃星辰语音模型在权威榜单排名全球第一

Step-2-DOR 1.1所在的"语音推理"（Speech Reasoning）赛道，是指模型直接处理语音输入并进行逻辑推理的能力，区别于传统的"语音转文字再推理"两阶段方案。原生语音推理模型能够捕捉语调、停顿、情感等文字转录中会丢失的信息，在实时对话、语音助手等场景中具有显著优势。Artificial Analysis是一家专注于AI模型性能基准测试的第三方机构，其评测维度涵盖推理速度、输出质量、价格效益比等多个层面，因方法论透明、数据持续更新而获得业界认可。

Step-2-DOR 1.1以96.4%的准确率超越了Grok、Gemini、GPT Real-Time等主流一线模型，刷新了历史最好成绩。这意味着阶跃星辰在端到端语音理解与推理的完整链路上已达到全球最优水平，对于国内AI团队在细分技术赛道实现弯道超车具有重要的标杆意义。该模型完整的API将在今年2月正式上线。

AI大模型市场格局：Anthropic逼近谷歌

从AI模型市场份额数据来看，近期格局出现了明显变化：

OPER 4.5使用量暴涨，单日涨幅高达59%，增长超过700亿Token
Hardcore 4.5和GPT OSS 120B的增速同样可观
Grok 4.1 Fast和Gemini 2.0 Flash则出现明显下滑

AI大模型市场份额变化，增长超过700亿Token

在总量层面，Anthropic的市场份额已超过20%，正在逼近谷歌。Anthropic成立于2021年，由前OpenAI研究副总裁Dario Amodei等人创立，专注于AI安全研究与大模型开发。其旗舰产品Claude系列以"宪法AI"（Constitutional AI）训练方法著称——通过让模型依据一套预设原则进行自我批评和修正，使其在安全性和指令遵循方面表现突出。Anthropic市场份额快速增长的背后，有几个关键驱动因素：Claude在代码生成和长文本处理上的口碑优势、亚马逊AWS的战略投资与深度集成（Claude已成为AWS Bedrock平台的核心模型之一），以及企业客户对"非OpenAI"供应商的多元化需求。

这一趋势值得关注——Anthropic凭借Claude系列模型的出色表现，正在从OpenAI和谷歌手中抢夺越来越多的市场份额，AI大模型的竞争格局正在从双寡头态势向多极化方向加速演进，对整个行业的定价策略和技术路线竞争都将产生深远影响。

小结

1月16日的AI行业动态呈现出几个明显趋势：一是大模型正在从"能力展示"走向"生态融合"，千问接入阿里系服务就是典型案例；二是垂直能力的竞争日趋激烈，无论是文心在专业领域的提升还是阶跃星辰在语音推理上的突破，都说明通用能力之外的差异化竞争已经开始；三是市场格局仍在快速变化，Anthropic的崛起正在打破原有的双寡头格局。

核心要点

千问APP上线400+新功能并全面接入支付宝、淘宝、高德等阿里生态，支持AI购物等实际操作
百度文心大模型ERNIE 5.0 0110版本发布，LMARENA排行榜全球第八，数学与编码能力显著提升
阶跃星辰Step-2-DOR 1.1以96.4%准确率在语音推理权威榜单登顶全球第一
Anthropic市场份额突破20%逼近谷歌，AI大模型竞争格局加速重塑
GPT-5.2 Codex上线Responses API，美团发布LongChat Flash Thinking 260B深度思考模型

千问上线400+新功能，文心5.0与多款大模型集中发布

千问APP全面升级：400+新功能打通阿里生态

文心大模型ERNIE 5.0 0110版本发布

美团与OpenAI的新动作

美团发布LongChat Flash Thinking 260B

GPT-5.2 Codex上线Responses API

阶跃星辰语音模型登顶全球第一

AI大模型市场格局：Anthropic逼近谷歌

小结

核心要点

相关推荐

GitHub Agent HQ发布：AI编程工具进入平台化竞争时代

Gemini 3.5 Flash在GDPval基准上实现巨大飞跃

Google Gemini Antigravity周配额三倍提升，AI编程不再受限