科技前沿2026年5月12日· 6 分钟阅读· 3,365 字

Mira Murati新公司Thinking Machines：交互模型将如何改变人机协作

Mira Murati创办Thinking Machines，聚焦"交互模型"重新定义人机协作方式。

OpenAI前CTO Mira Murati创办的Thinking Machines公司正式公布技术方向——构建"交互模型"，旨在通过持续接收音频、视频等多模态信息流，实现无回合感的实时人机协作，区别于当前主流的"请求-响应"模式。该方向开辟了AI竞争的第三维度——交互体验本身，但在算力、延迟和工程实现上仍面临巨大挑战。

Mira Murati从OpenAI离职后创办的AI公司Thinking Machines，本周一正式揭开了技术面纱——公司将核心研究方向锁定在"交互模型"（Interaction Models）。这个概念的提出，可能会重新定义人与AI之间的协作方式。

从OpenAI CTO到Thinking Machines创始人

Mira Murati曾担任OpenAI首席技术官，深度参与了ChatGPT等标志性产品的研发。她的离职在AI圈引发了不小的震动，而创办Thinking Machines的消息更是让行业充满期待。如今，这家公司终于对外透露了自己的技术方向。

值得注意的是，Murati的职业背景远不止AI领域。在加入OpenAI之前，她曾在特斯拉参与Model X的开发工作，随后在虚拟现实公司Ultraleap（前身为Leap Motion）担任产品与工程副总裁。这段跨越硬件、VR和AI的职业经历，使她对人机交互有着比纯AI研究者更为立体的理解。在OpenAI期间，她不仅主导了ChatGPT的产品化进程，还深度参与了DALL·E图像生成系统和GPT-4多模态能力的研发。2023年11月OpenAI董事会戏剧性地解雇CEO Sam Altman期间，Murati曾短暂担任临时CEO，这一事件也让外界对OpenAI内部的技术路线分歧有了更多猜测。她最终于2024年9月正式离职，并在数月后宣布创办Thinking Machines。

与市面上大多数AI公司聚焦大语言模型或垂直应用不同，Thinking Machines走了一条差异化路线——不做更大的模型，而是构建全新的"交互模型"。

交互模型是什么：重新理解人机协作

按照Thinking Machines的说法，交互模型的核心目标是让人像与同事自然协作那样与AI协作。具体来说，这类模型能够持续接收音频、视频等多模态信息流，实现真正意义上的实时、连续交互。

这跟我们现在用AI的方式有本质区别。当前主流的AI交互仍然是"请求-响应"模式：你打一段话发过去，AI想一会儿再回复你。而交互模型追求的是一种持续性的、沉浸式的协作体验——更接近两个人面对面聊天时的状态，信息在不间断地流动，双方随时可以打断、补充、调整。

从技术角度理解，当前"请求-响应"模式的局限性是结构性的。这种模式本质上继承自经典的客户端-服务器架构——用户发送一个完整的prompt，模型基于Transformer架构进行自回归（autoregressive）推理，逐token生成回复。这带来几个根本性问题：用户必须等待完整输出才能进行下一轮交互，无法像真实对话那样随时打断或补充；每次交互本质上是对一个静态文本窗口的处理，模型无法感知对话过程中用户状态的实时变化；即便GPT-4o等模型已支持多模态输入，实际交互流程仍以文本为核心锚点，音频和视觉信息更多是作为附加输入而非持续信号流。交互模型要打破的，正是这些底层架构带来的体验天花板。

多模态深度融合：不只是听，还要看

从目前公开的信息来看，交互模型至少涉及音频和视频两种模态的持续输入。也就是说，AI不仅能听到你在说什么，还能看到你的表情、手势和周围环境，从而做出更准确的判断和回应。

这个方向与行业大趋势一致。Google的Gemini、OpenAI的GPT-4o都在推进多模态能力，但Thinking Machines想做的似乎更进一步——不只是让AI能处理图片、音频、视频这些不同格式的输入，而是让整个交互过程像人与人之间的对话一样连贯自然，没有明显的"回合感"。

实现这一目标在技术上面临的挑战远超当前的多模态大模型。传统多模态模型（如GPT-4V、Gemini）处理的是离散的多模态输入——一张图片、一段录音、一个视频片段，模型对其进行一次性编码后融合理解。而交互模型要求的是对连续流（continuous stream）的实时处理，这涉及流式推理（streaming inference）架构的根本性重构。在音频层面，需要实现低延迟的语音活动检测（VAD）、实时语音识别与语义理解的并行处理；在视频层面，需要对每秒24-30帧的画面进行实时视觉编码，并与语音语义进行跨模态对齐（cross-modal alignment）。此外，状态记忆机制也是关键难题——模型需要维护一个持续更新的交互状态，而非像当前模型那样依赖固定长度的上下文窗口。Google DeepMind的Gemini 2.0在实时多模态方面已有探索，但距离真正的"无回合感"交互仍有显著差距。

交互模型的行业意义与前景

当前AI领域的竞争主要集中在两个维度：一是模型能力（更强的推理、更大的上下文窗口），二是应用场景（代码生成、内容创作、数据分析）。Thinking Machines提出的交互模型，实际上开辟了第三个维度——交互体验本身。

这一方向的提出有着深刻的行业背景。AI行业正在经历从"模型军备竞赛"向"体验差异化"的转型期。2023-2024年间，各大实验室在模型基准测试上的差距已显著缩小——Claude、GPT-4、Gemini在MMLU等主流评测上的表现日趋接近，这种现象被业内称为"模型能力趋同"（capability convergence）。在这一背景下，用户体验和交互范式的创新正成为新的差异化战场。苹果的Apple Intelligence强调设备端的无缝集成体验，Anthropic则通过Computer Use功能探索AI与操作系统的深度交互，Humane AI Pin和Rabbit R1等硬件产品试图从物理交互层面重新定义人机关系。Thinking Machines提出的交互模型，可以被视为这一行业趋势的延伸——将竞争焦点从"AI能做什么"转向"AI如何与人协同工作"。

如果这个愿景能够实现，AI就不再只是一个被动等待指令的工具，而是一个能主动感知环境、持续理解意图、实时给出反馈的协作伙伴。在教育辅导、远程医疗、团队协作等场景中，这种能力的价值摆在眼前的事实。

挑战与不确定性

不过，Thinking Machines目前披露的信息仍然有限。交互模型的具体技术架构、训练方法、实际性能等关键细节都还没有公开。

从技术角度看，持续处理多模态信息流对算力的要求极高。这种算力需求是一个量级性的跳跃——以当前的视频理解为例，处理一段10秒的720p视频，Gemini 1.5 Pro大约需要消耗数千个token的上下文容量；如果要实现持续的实时视频流处理，意味着模型每秒需要编码和推理的数据量将呈指数级增长。在延迟方面，人类对话的自然反应时间约为200-500毫秒，要实现"无回合感"的交互体验，端到端延迟（从用户发出信号到AI做出响应）必须控制在这个范围内。这对推理基础设施提出了极高要求，可能需要结合边缘计算（edge computing）、模型蒸馏（model distillation）、推测解码（speculative decoding）等多种技术手段来实现。目前业界在这一方向上的代表性工作包括OpenAI的实时语音API（Realtime API）和Google的Project Astra，但两者都尚未达到真正的生产级持续多模态交互水平。如何在延迟、成本和效果之间找到平衡点，是一个不小的工程难题。

从竞争格局看，作为一家初创公司，Thinking Machines需要在OpenAI、Google、Meta等巨头的包围中找到立足之地。Mira Murati的行业声望和技术积累是重要的起步资本，但最终能不能转化为有竞争力的产品，还需要时间来验证。

总结：交互体验或成AI下一个竞争高地

Mira Murati和Thinking Machines选了一条有野心的路。在大模型能力越来越趋同的今天，"交互模型"这个概念如果能真正落地，有可能成为AI领域的下一个重要技术范式。谁先突破人机交互的瓶颈，谁就可能拿到下一阶段竞争的入场券。Thinking Machines接下来会拿出什么样的产品，值得持续关注。

#Thinking Machines #Mira Murati #交互模型 #Interaction Models #人机交互 #多模态AI #AI创业 #前OpenAI CTO

分享：

Mira Murati新公司Thinking Machines：交互模型将如何改变人机协作

从OpenAI CTO到Thinking Machines创始人

交互模型是什么：重新理解人机协作

多模态深度融合：不只是听，还要看

交互模型的行业意义与前景

挑战与不确定性

总结：交互体验或成AI下一个竞争高地

相关推荐

GitHub Agent HQ发布：AI编程工具进入平台化竞争时代

Gemini 3.5 Flash在GDPval基准上实现巨大飞跃

Google Gemini Antigravity周配额三倍提升，AI编程不再受限

Mira Murati新公司Thinking Machines：交互模型将如何改变人机协作

从OpenAI CTO到Thinking Machines创始人

交互模型是什么：重新理解人机协作

多模态深度融合：不只是听，还要看

交互模型的行业意义与前景

挑战与不确定性

总结：交互体验或成AI下一个竞争高地

相关推荐

GitHub Agent HQ发布：AI编程工具进入平台化竞争时代

Gemini 3.5 Flash在GDPval基准上实现巨大飞跃

Google Gemini Antigravity周配额三倍提升，AI编程不再受限