播客频道 | MARVIS项目：嵌入式AI Agent赋能太空自主探索全解析

今天想跟你聊一个特别让我兴奋的项目。你还记得卡尔·萨根在《宇宙》里描绘过的那个场景吗？未来的探测器应该能自主思考，自己选择去哪儿探索，自己决定研究什么。这个愿景提出几十年了，最近有个叫MARVIS的项目，好像真的在把这件事往前推了一大步。对，MARVIS这个项目我一直在关注。它是在今年的飞行软件研讨会上公布的最新进展，核心思路其实很直白——把生成式AI和大语言模型的Agent架构，直接部署到太空飞行器上。你想啊，现在火星车虽然已经有一定的自主导航能力了，但真正意义上的科学自主探索，比如看到一块岩石能自己判断值不值得研究、遇到沙尘暴能自己决定要不要避险，这些能力其实还远远不够。嗯，这里面有个关键问题。你说把大语言模型部署到太空飞行器上，那可不是在数据中心跑GPT-4，太空里的计算资源和功耗限制是非常严格的。他们是怎么解决这个矛盾的？这恰恰是MARVIS最有意思的地方。他们做了一个非常聪明的对比实验。一边是GPT-4o Mini，超过100亿参数，得用服务器级GPU跑；另一边是Google的Gemma模型，只有40亿参数，而且权重被量化到了4位精度，可以在各种边缘计算设备上运行。然后他们让这两个模型做同样的行星科学分析任务，结果发现——注意啊——两者之间没有统计学上的显著差异。等等，这个结论挺颠覆的。你是说一个40亿参数的量化小模型，分析行星地质图像的能力，跟大了好几倍的云端模型差不多？对，而且更关键的是，他们完全没有对模型做任何微调。没有用行星科学的数据去训练它，纯粹靠提示词工程。就是给每个Agent写好系统提示词，告诉它你是什么角色、你该关注什么。这大幅降低了部署门槛，你不需要为每个任务去收集数据、训练模型，换个提示词就能换个任务。那他们的Agent架构具体是怎么设计的？我理解太空探测不可能只靠一个模型单打独斗。架构其实非常简洁，简洁到让人意外。整个流程是这样的：传感器采集到图像数据后，先交给一个科学分析Agent，它负责看图说话，做地质分析或者大气分析；然后分析结果传给一个分诊Agent，由它来做决策——是继续探索这个区域，还是发出危险警报。所有Agent之间的通信都是自然语言，唯一的传统代码就大概半页Python，用来搭建Agent之间的调用关系。他们用的是OpenAI开源的Swarm框架来做编排。半页Python就搞定了？这听起来也太轻量了。是的，但别小看这个简洁的架构，它的表现相当惊艳。比如他们测试了一张层状沉积岩的图像，科学分析Agent准确识别出这可能是古代河床或湖泊的沉积物，还注意到色带变化暗示矿物成分不同。分诊Agent就建议继续深入调查这个区域。更让人印象深刻的是沙尘暴测试——系统不仅检测到了沙尘暴，还自动发出了安全警报，说这对飞行器运行构成潜在危险。这个安全警报是预设的规则吗？不是！这就是最妙的地方。团队从来没有明确告诉Agent说'看到云层要发警报'，他们只是在提示词里说了'检测对飞行器的危险状况'。Agent自己推理出沙尘暴是危险的，然后主动发出了警报。这种涌现式的安全判断能力，其实正是大语言模型最有价值的特性之一——它有常识推理能力。那人类专家怎么看这些AI的分析结果？毕竟太空任务容不得太多差错。他们做了一个挺严谨的调查，88名受访者用李克特量表打分。非航天领域的专家给出了'好到优秀'的评价；航天领域的专家，就是那些有实际任务工程经验的人，评分大概低了一个等级，但仍然接近'好'的范围。你看，航天专家更挑剔是正常的，他们知道实际任务中的坑在哪里。但整体来说，对于一个未经微调的小模型，这个表现已经相当不错了。说到实际部署，边缘硬件的推理性能怎么样？毕竟太空里功耗是个硬约束。嗯，这块他们做得很实在。团队直接测了各个平台的Token生成速率，而不是看厂商宣传的TOPS指标——因为那些理论指标跟实际跑大语言模型的性能差距可能很大。他们测了MacBook Pro作为参考基准，速度最快；高通骁龙X Elite表现还行，高通自己也说还有优化空间；英伟达Jetson Orin NX用好GPU加速的话表现不错；最有意思的是一个叫DeepX芯片的开发板，只有5瓦功耗，但有专门的AI推理加速能力。5瓦啊，这在太空里就太友好了。 5瓦确实很诱人。不过我有个担心，大语言模型的幻觉问题在地面上已经够头疼了，放到太空里岂不是更危险？你这个担心非常到位，团队自己也意识到了。他们还发现一个容易被忽视的问题：同一个模型在不同硬件上可能产生不同的推理结果，甚至同一硬件上重复跑也会有微小差异。所以他们正在做一件很重要的事——建立一个叫MMMUSGI的太空AI基准测试集，专门用来评估AI Agent在太空场景下的能力。里面包括真实的火星直升机导航相机图像，还有人工生成的结构损伤图像，分别测地质识别和损伤检测能力。有了标准化的评估体系，才能谈可靠性。那他们接下来还有什么规划？下一步更有野心。他们在设计一个分布式协同探索系统，让巡视车和无人机组成多Agent编队一起探索。还要配上便携式显微镜、气相色谱仪、质谱仪，甚至还有一个150美元的低成本机械臂，用视觉-语言-动作模型来控制。但最核心的目标是——开发一个能自主设计实验的AI Agent。就是说你告诉它有哪些仪器可以用，它自己推断出能做什么科学研究。这不就是萨根当年说的那个愿景吗？自主思考、自主探索。只不过当年是科幻，现在有了大语言模型，变成了一条可以走的工程路径。对，而且MARVIS最让我觉得有意义的一点是，它证明了这条路径的起点比我们想象的要低。你不需要专门训练一个行星科学大模型，一个量化过的小模型加上好的提示词工程和Agent架构，就已经能展现出相当不错的科学分析能力。当然从POC到真正上天还有很长的路，可靠性验证、抗辐射加固、长期运行稳定性，这些工程挑战一个都不能少。但至少技术基础已经初步具备了，这个信号本身就很振奋。说得好。从40亿参数的小模型到自主设计实验的太空AI，这中间的每一步都值得持续关注。也许再过几年，我们真的能看到一个探测器在火星上自己决定今天往哪走、研究哪块石头。那种感觉，大概就是萨根当年最想看到的吧。

MARVIS项目：嵌入式AI Agent赋能太空自主探索全解析

更多播客

AI热点风向标·06月07日午间版

AI热点风向标·06月07日早间版

每日AI新鲜事·06月07日早间播报