Mira Murati新公司Thinking Machines:交互模型将如何改变人机协作

Mira Murati创办Thinking Machines,聚焦"交互模型"重新定义人机协作方式。
OpenAI前CTO Mira Murati创办的Thinking Machines公司正式公布技术方向——构建"交互模型",旨在通过持续接收音频、视频等多模态信息流,实现无回合感的实时人机协作,区别于当前主流的"请求-响应"模式。该方向开辟了AI竞争的第三维度——交互体验本身,但在算力、延迟和工程实现上仍面临巨大挑战。
Mira Murati从OpenAI离职后创办的AI公司Thinking Machines,本周一正式揭开了技术面纱——公司将核心研究方向锁定在"交互模型"(Interaction Models)。这个概念的提出,可能会重新定义人与AI之间的协作方式。
从OpenAI CTO到Thinking Machines创始人
Mira Murati曾担任OpenAI首席技术官,深度参与了ChatGPT等标志性产品的研发。她的离职在AI圈引发了不小的震动,而创办Thinking Machines的消息更是让行业充满期待。如今,这家公司终于对外透露了自己的技术方向。
值得注意的是,Murati的职业背景远不止AI领域。在加入OpenAI之前,她曾在特斯拉参与Model X的开发工作,随后在虚拟现实公司Ultraleap(前身为Leap Motion)担任产品与工程副总裁。这段跨越硬件、VR和AI的职业经历,使她对人机交互有着比纯AI研究者更为立体的理解。在OpenAI期间,她不仅主导了ChatGPT的产品化进程,还深度参与了DALL·E图像生成系统和GPT-4多模态能力的研发。2023年11月OpenAI董事会戏剧性地解雇CEO Sam Altman期间,Murati曾短暂担任临时CEO,这一事件也让外界对OpenAI内部的技术路线分歧有了更多猜测。她最终于2024年9月正式离职,并在数月后宣布创办Thinking Machines。
与市面上大多数AI公司聚焦大语言模型或垂直应用不同,Thinking Machines走了一条差异化路线——不做更大的模型,而是构建全新的"交互模型"。
交互模型是什么:重新理解人机协作
按照Thinking Machines的说法,交互模型的核心目标是让人像与同事自然协作那样与AI协作。具体来说,这类模型能够持续接收音频、视频等多模态信息流,实现真正意义上的实时、连续交互。
这跟我们现在用AI的方式有本质区别。当前主流的AI交互仍然是"请求-响应"模式:你打一段话发过去,AI想一会儿再回复你。而交互模型追求的是一种持续性的、沉浸式的协作体验——更接近两个人面对面聊天时的状态,信息在不间断地流动,双方随时可以打断、补充、调整。
从技术角度理解,当前"请求-响应"模式的局限性是结构性的。这种模式本质上继承自经典的客户端-服务器架构——用户发送一个完整的prompt,模型基于Transformer架构进行自回归(autoregressive)推理,逐token生成回复。这带来几个根本性问题:用户必须等待完整输出才能进行下一轮交互,无法像真实对话那样随时打断或补充;每次交互本质上是对一个静态文本窗口的处理,模型无法感知对话过程中用户状态的实时变化;即便GPT-4o等模型已支持多模态输入,实际交互流程仍以文本为核心锚点,音频和视觉信息更多是作为附加输入而非持续信号流。交互模型要打破的,正是这些底层架构带来的体验天花板。
多模态深度融合:不只是听,还要看
从目前公开的信息来看,交互模型至少涉及音频和视频两种模态的持续输入。也就是说,AI不仅能听到你在说什么,还能看到你的表情、手势和周围环境,从而做出更准确的判断和回应。
这个方向与行业大趋势一致。Google的Gemini、OpenAI的GPT-4o都在推进多模态能力,但Thinking Machines想做的似乎更进一步——不只是让AI能处理图片、音频、视频这些不同格式的输入,而是让整个交互过程像人与人之间的对话一样连贯自然,没有明显的"回合感"。
实现这一目标在技术上面临的挑战远超当前的多模态大模型。传统多模态模型(如GPT-4V、Gemini)处理的是离散的多模态输入——一张图片、一段录音、一个视频片段,模型对其进行一次性编码后融合理解。而交互模型要求的是对连续流(continuous stream)的实时处理,这涉及流式推理(streaming inference)架构的根本性重构。在音频层面,需要实现低延迟的语音活动检测(VAD)、实时语音识别与语义理解的并行处理;在视频层面,需要对每秒24-30帧的画面进行实时视觉编码,并与语音语义进行跨模态对齐(cross-modal alignment)。此外,状态记忆机制也是关键难题——模型需要维护一个持续更新的交互状态,而非像当前模型那样依赖固定长度的上下文窗口。Google DeepMind的Gemini 2.0在实时多模态方面已有探索,但距离真正的"无回合感"交互仍有显著差距。
交互模型的行业意义与前景
当前AI领域的竞争主要集中在两个维度:一是模型能力(更强的推理、更大的上下文窗口),二是应用场景(代码生成、内容创作、数据分析)。Thinking Machines提出的交互模型,实际上开辟了第三个维度——交互体验本身。
这一方向的提出有着深刻的行业背景。AI行业正在经历从"模型军备竞赛"向"体验差异化"的转型期。2023-2024年间,各大实验室在模型基准测试上的差距已显著缩小——Claude、GPT-4、Gemini在MMLU等主流评测上的表现日趋接近,这种现象被业内称为"模型能力趋同"(capability convergence)。在这一背景下,用户体验和交互范式的创新正成为新的差异化战场。苹果的Apple Intelligence强调设备端的无缝集成体验,Anthropic则通过Computer Use功能探索AI与操作系统的深度交互,Humane AI Pin和Rabbit R1等硬件产品试图从物理交互层面重新定义人机关系。Thinking Machines提出的交互模型,可以被视为这一行业趋势的延伸——将竞争焦点从"AI能做什么"转向"AI如何与人协同工作"。
如果这个愿景能够实现,AI就不再只是一个被动等待指令的工具,而是一个能主动感知环境、持续理解意图、实时给出反馈的协作伙伴。在教育辅导、远程医疗、团队协作等场景中,这种能力的价值摆在眼前的事实。
挑战与不确定性
不过,Thinking Machines目前披露的信息仍然有限。交互模型的具体技术架构、训练方法、实际性能等关键细节都还没有公开。
从技术角度看,持续处理多模态信息流对算力的要求极高。这种算力需求是一个量级性的跳跃——以当前的视频理解为例,处理一段10秒的720p视频,Gemini 1.5 Pro大约需要消耗数千个token的上下文容量;如果要实现持续的实时视频流处理,意味着模型每秒需要编码和推理的数据量将呈指数级增长。在延迟方面,人类对话的自然反应时间约为200-500毫秒,要实现"无回合感"的交互体验,端到端延迟(从用户发出信号到AI做出响应)必须控制在这个范围内。这对推理基础设施提出了极高要求,可能需要结合边缘计算(edge computing)、模型蒸馏(model distillation)、推测解码(speculative decoding)等多种技术手段来实现。目前业界在这一方向上的代表性工作包括OpenAI的实时语音API(Realtime API)和Google的Project Astra,但两者都尚未达到真正的生产级持续多模态交互水平。如何在延迟、成本和效果之间找到平衡点,是一个不小的工程难题。
从竞争格局看,作为一家初创公司,Thinking Machines需要在OpenAI、Google、Meta等巨头的包围中找到立足之地。Mira Murati的行业声望和技术积累是重要的起步资本,但最终能不能转化为有竞争力的产品,还需要时间来验证。
总结:交互体验或成AI下一个竞争高地
Mira Murati和Thinking Machines选了一条有野心的路。在大模型能力越来越趋同的今天,"交互模型"这个概念如果能真正落地,有可能成为AI领域的下一个重要技术范式。谁先突破人机交互的瓶颈,谁就可能拿到下一阶段竞争的入场券。Thinking Machines接下来会拿出什么样的产品,值得持续关注。
相关推荐
科技前沿GitHub Agent HQ发布:AI编程工具进入平台化竞争时代
GitHub Universe大会发布Agent HQ平台,统一管理编码Agent,Copilot升级支持多模型集成。同期OpenAI完成重组,Anthropic新模型测试,NVIDIA开源系列AI模型,AI编程工具格局加速整合。
科技前沿Gemini 3.5 Flash在GDPval基准上实现巨大飞跃
Google Gemini 3.5 Flash在GDPval基准测试中超越Gemini 3.1 Pro,轻量级Flash模型借助后训练技术逼近前沿水平,重新定义性能与成本的平衡点,为AI应用开发者带来重大利好。
科技前沿Google Gemini Antigravity周配额三倍提升,AI编程不再受限
Google Gemini团队再次将Antigravity周配额提升至三倍,继日配额提升后再次加码。本文解析此次配额调整对开发者的实际影响,以及在AI编程助手竞争格局中的战略意义。