阶跃星辰STEP3.7 Flash登顶AA榜,多模态推理速度起飞
阶跃星辰STEP3.7 Flash登顶AA榜,多模态推理速度起飞
核心事件:STEP3.7 Flash登顶AA榜
阶跃星辰最新发布的STEP3.7 Flash大模型一举登顶AA榜(Artificial Analysis),在速度、性价比和端到端多模态三个维度均斩获第一。该模型在Open Router平台上的热度已飙升至全球第二,展现出国产大模型在开源社区的强劲势头。
Artificial Analysis(AA榜)是一个独立的AI模型基准测试平台,专注于从实际使用角度评估大语言模型的性能,涵盖推理速度(tokens/秒)、质量(基于多个标准测试集的综合得分)和价格(每百万token的成本)三大核心维度。与学术性质的MMLU、HumanEval等榜单不同,AA榜更贴近开发者的真实使用场景,因此在工程社区中具有较高参考价值。Open Router则是一个统一的AI模型API路由平台,开发者可以通过单一接口调用数百个不同的大模型,其热度排名直接反映了全球开发者的实际使用偏好和模型的市场竞争力。
最令人印象深刻的是其多模态实时交互能力——在实际测试中,STEP3.7 Flash能够同时观察飞行模拟器的仪表盘和操纵杆画面,实时指导用户操作飞机。这种端到端的多模态推理速度,真正做到了"快到起飞"。所谓端到端多模态(End-to-End Multimodal),是指模型在一个统一架构中同时处理文本、图像、音频、视频等多种输入模态,并直接输出响应,而非通过多个独立模块串联处理。传统方案通常需要先用视觉模型识别图像内容,再将识别结果以文本形式传递给语言模型,这种管道式架构会引入额外延迟和信息损失。端到端架构将感知和推理融为一体,大幅降低响应延迟,使实时交互成为可能。目前该模型已开源,开发者可直接下载体验。
AI安全:三巨头罕见联名呼吁立法
Sam Altman(OpenAI)、Dario Amodei(Anthropic)、Demis Hassabis(Google DeepMind)等平时竞争最激烈的67位科技与安全界领袖,在一封公开信上共同签名,联合呼吁美国国会立法强制筛查所有合成DNA订单,以防止AI被用于制造致命生物武器。
这一呼吁的背景是合成生物学领域日益严峻的安全形势。合成生物学允许研究者通过DNA合成公司定制任意基因序列,目前全球有数百家DNA合成服务商,部分公司已自愿加入国际基因合成联盟(IGSC)的筛查体系,但仍有大量供应商未执行严格的客户身份验证和序列危险性筛查。随着AI大模型在生物学领域能力的飞速提升,理论上任何人都可能借助AI设计出危险病原体的基因序列,再通过未受监管的合成渠道获取实体DNA。这封公开信的核心诉求是将筛查从行业自律升级为法律强制,堵住监管漏洞。
这封公开信引发了广泛争议。网络评论中近75%持负面态度,许多人认为这是大厂联合游说、构建行业壁垒的手段。但确实的是,能让这些"宿敌"坐在一起达成共识,说明AI带来的生物安全威胁已经触及了行业公认的红线。无论动机如何,合成生物学的安全监管确实是一个亟待解决的现实问题。
具身智能:30万套住宅变身机器人训练场
大小机器人联合香港中文大学MMLab发布了Kairos Homeworld——全球首个将30万套中国真实住宅户型1:1数字化重构的具身智能仿真环境。
具身智能(Embodied AI)是指AI系统通过物理身体与真实世界交互来学习和执行任务,与纯粹的语言或图像AI不同,它需要理解物理规律、空间关系和动态交互。训练具身智能面临的核心瓶颈是数据获取——让真实机器人在真实环境中反复试错成本极高且效率低下。高保真仿真环境(Sim-to-Real)成为主流解决方案:先在虚拟世界中大规模训练,再将学到的策略迁移到真实机器人上。Kairos Homeworld的突破在于其场景来源于真实住宅的精确数字孪生,而非人工设计的简化场景,这大幅缩小了仿真与现实之间的"域差距"(Domain Gap),使训练出的策略更容易在真实家庭环境中泛化。
这个训练场的精细度令人惊叹:从30平小单间到大平层,场景中每个物体的材质、密度和摩擦系数都经过物理建模。机器人只需一句自然语言指令,就能生成对应的家务训练场景。这相当于给机器人建了一个"免费拎包入住"的超大规模样板房,有望大幅加速家用机器人的训练迭代速度。
基础设施:华为云发布Agentic Infra新范式
在华为云Inspire创想者大会上,华为云正式提出Agentic Infra新范式,发布了训推一体化基础设施和ASS零区计算集群等系列产品。
Agentic Infra是华为云面向AI Agent时代提出的基础设施范式。AI Agent(智能体)与传统大模型调用的关键区别在于:Agent需要进行多轮推理、工具调用和环境交互,单次任务可能产生数万甚至数十万token的中间推理过程,对基础设施的吞吐量和延迟提出了远超传统问答场景的要求。训推一体化是指在同一集群中灵活调度训练和推理负载,避免算力资源的闲置浪费——传统做法中训练集群和推理集群往往独立部署,导致一方繁忙时另一方可能处于低利用率状态。
关键技术指标包括:
- 支持10万卡规模算力
- Token生成延迟压缩到10毫秒以内
- 算力达到2001 PFLOPS(每秒2001千万亿次浮点运算)
这意味着华为云正在从硬核底层技术层面,为整个Agent时代构建坚实的基础设施底座。2001 PFLOPS的算力规模配合10毫秒级token生成延迟,意味着该集群能够同时支撑大量Agent并发执行复杂任务链。对于需要大规模Token生成的开发者而言,10毫秒级延迟意味着真正的"Token工厂"级别体验。
应用生态:WPS笔记与腾讯企业AI双双发力
WPS AI原生笔记
金山办公正式推出AI原生多模态笔记产品WPS笔记,支持语音、图片、网页等多模态内容录入。其核心差异化在于将AI深度嵌入理解、组织、检索和复用的全链路——随手拍一张讨论白板或录一段会议音频,系统都能自动归纳、提炼并整理成结构化笔记。
值得注意的是,AI原生(AI-Native)产品与传统产品"加AI功能"有本质区别:前者从产品架构设计之初就以AI为核心引擎,所有交互流程围绕AI能力构建;后者则是在已有产品上叠加AI辅助功能。WPS笔记属于前者——它不是在传统笔记软件上加了AI总结按钮,而是整个信息录入、组织和检索流程都由AI驱动,用户的每一次输入都会被AI实时理解和结构化。
腾讯WorkBody企业版
腾讯云发布了WorkBody企业版和办公智能体套件Agent Suite,提供7×24小时在线的"专家数字员工",打通腾讯文档和网盘,支持人机协同的团队模式。这标志着AI工具从"帮个体提效"正式进入"企业级AI协同"的深水区。
企业级AI协同之所以被称为"深水区",是因为它需要解决远比个人工具复杂的系统性问题:多层级权限管理确保数据安全、与企业现有IT系统的深度集成、多人协作场景下AI输出的一致性和可追溯性、以及企业私有知识库的构建和维护。这些挑战使得企业级AI产品的落地周期和技术门槛远高于面向个人的AI工具。
快讯速递
- 快手可灵AI两周年:全球用户突破1亿,企业客户近5万家,稳居视频生成赛道头部
- B站AI创造公开赛:打出"中国版Build in Public"口号,不限年龄和技术背景,非开发者报名占比高达60%,奖金评选由用户投币决定
- 清华×智源登上Science正刊:脑科学多模态基础模型Brain成功揭示睡眠中记忆重激活调控睡眠动态的神经机制。该模型通过整合fMRI(功能性磁共振成像)、EEG(脑电图)等多种脑成像模态的数据,构建了统一的脑活动表征空间,验证了长期以来神经科学界关于睡眠期间大脑会"回放"清醒时经历以巩固记忆的假说,并进一步发现这种重激活过程会主动调节睡眠阶段的转换。这项工作不仅推进了对人类认知机制的理解,也为开发更接近人脑学习方式的AI系统提供了启发。
总结
从STEP3.7 Flash的性能突破到华为云的基础设施升级,从具身智能的训练场革新到企业级AI协同工具的落地,AI行业呈现出一个清晰趋势:速度和规模正在成为新的竞争维度。无论是模型推理的毫秒级响应,还是30万套住宅的数字化重构,亦或是10万卡集群的算力堆叠,"快"和"大"正在重新定义AI应用的可能性边界。
核心要点
相关推荐
Claude Code 4个必改设置,开发效率直接翻倍
Claude Code 4个必改设置,开发效率直接翻倍
分享Claude Code最值得修改的4个设置:权限模式绕过、聊天记录永久保留、MCP合并规则理解、全局Skill精简到7个。改完告别确认框骚扰,节省6%上下文窗口,开发体验立刻提升。
RTK终端输出压缩工具:Claude Code省下80%Token消耗
RTK终端输出压缩工具:Claude Code省下80%Token消耗
RTK是一款用Rust编写的开源终端输出压缩工具,专为Claude Code设计。通过拦截和压缩git、npm等命令输出,将Token消耗从11.8万降至2.39万,节省约80%。免费、离线、两分钟安装即用。
笨豆:16岁独立拍纪录片,全网播放破亿的10后UP主
笨豆:16岁独立拍纪录片,全网播放破亿的10后UP主
B站UP主笨豆,16岁高一学生,从四年级开始做视频,独立完成印度、蒙古国等人文纪录片拍摄,全网粉丝超百万、播放量破亿。深入了解她的纸上剪辑法、一人纪录片工作流程及创作心路历程。