今天想跟你聊一个特别让我兴奋的项目。你还记得卡尔·萨根在《宇宙》里描绘过的那个场景吗?未来的探测器应该能自主思考,自己选择去哪儿探索,自己决定研究什么。这个愿景提出几十年了,最近有个叫MARVIS的项目,好像真的在把这件事往前推了一大步。
对,MARVIS这个项目我一直在关注。它是在今年的飞行软件研讨会上公布的最新进展,核心思路其实很直白——把生成式AI和大语言模型的Agent架构,直接部署到太空飞行器上。你想啊,现在火星车虽然已经有一定的自主导航能力了,但真正意义上的科学自主探索,比如看到一块岩石能自己判断值不值得研究、遇到沙尘暴能自己决定要不要避险,这些能力其实还远远不够。
嗯,这里面有个关键问题。你说把大语言模型部署到太空飞行器上,那可不是在数据中心跑GPT-4,太空里的计算资源和功耗限制是非常严格的。他们是怎么解决这个矛盾的?
这恰恰是MARVIS最有意思的地方。他们做了一个非常聪明的对比实验。一边是GPT-4o Mini,超过100亿参数,得用服务器级GPU跑;另一边是Google的Gemma模型,只有40亿参数,而且权重被量化到了4位精度,可以在各种边缘计算设备上运行。然后他们让这两个模型做同样的行星科学分析任务,结果发现——注意啊——两者之间没有统计学上的显著差异。
等等,这个结论挺颠覆的。你是说一个40亿参数的量化小模型,分析行星地质图像的能力,跟大了好几倍的云端模型差不多?
对,而且更关键的是,他们完全没有对模型做任何微调。没有用行星科学的数据去训练它,纯粹靠提示词工程。就是给每个Agent写好系统提示词,告诉它你是什么角色、你该关注什么。这大幅降低了部署门槛,你不需要为每个任务去收集数据、训练模型,换个提示词就能换个任务。
那他们的Agent架构具体是怎么设计的?我理解太空探测不可能只靠一个模型单打独斗。
架构其实非常简洁,简洁到让人意外。整个流程是这样的:传感器采集到图像数据后,先交给一个科学分析Agent,它负责看图说话,做地质分析或者大气分析;然后分析结果传给一个分诊Agent,由它来做决策——是继续探索这个区域,还是发出危险警报。所有Agent之间的通信都是自然语言,唯一的传统代码就大概半页Python,用来搭建Agent之间的调用关系。他们用的是OpenAI开源的Swarm框架来做编排。
半页Python就搞定了?这听起来也太轻量了。
是的,但别小看这个简洁的架构,它的表现相当惊艳。比如他们测试了一张层状沉积岩的图像,科学分析Agent准确识别出这可能是古代河床或湖泊的沉积物,还注意到色带变化暗示矿物成分不同。分诊Agent就建议继续深入调查这个区域。更让人印象深刻的是沙尘暴测试——系统不仅检测到了沙尘暴,还自动发出了安全警报,说这对飞行器运行构成潜在危险。
这个安全警报是预设的规则吗?
不是!这就是最妙的地方。团队从来没有明确告诉Agent说'看到云层要发警报',他们只是在提示词里说了'检测对飞行器的危险状况'。Agent自己推理出沙尘暴是危险的,然后主动发出了警报。这种涌现式的安全判断能力,其实正是大语言模型最有价值的特性之一——它有常识推理能力。
那人类专家怎么看这些AI的分析结果?毕竟太空任务容不得太多差错。
他们做了一个挺严谨的调查,88名受访者用李克特量表打分。非航天领域的专家给出了'好到优秀'的评价;航天领域的专家,就是那些有实际任务工程经验的人,评分大概低了一个等级,但仍然接近'好'的范围。你看,航天专家更挑剔是正常的,他们知道实际任务中的坑在哪里。但整体来说,对于一个未经微调的小模型,这个表现已经相当不错了。
说到实际部署,边缘硬件的推理性能怎么样?毕竟太空里功耗是个硬约束。
嗯,这块他们做得很实在。团队直接测了各个平台的Token生成速率,而不是看厂商宣传的TOPS指标——因为那些理论指标跟实际跑大语言模型的性能差距可能很大。他们测了MacBook Pro作为参考基准,速度最快;高通骁龙X Elite表现还行,高通自己也说还有优化空间;英伟达Jetson Orin NX用好GPU加速的话表现不错;最有意思的是一个叫DeepX芯片的开发板,只有5瓦功耗,但有专门的AI推理加速能力。5瓦啊,这在太空里就太友好了。
5瓦确实很诱人。不过我有个担心,大语言模型的幻觉问题在地面上已经够头疼了,放到太空里岂不是更危险?
你这个担心非常到位,团队自己也意识到了。他们还发现一个容易被忽视的问题:同一个模型在不同硬件上可能产生不同的推理结果,甚至同一硬件上重复跑也会有微小差异。所以他们正在做一件很重要的事——建立一个叫MMMUSGI的太空AI基准测试集,专门用来评估AI Agent在太空场景下的能力。里面包括真实的火星直升机导航相机图像,还有人工生成的结构损伤图像,分别测地质识别和损伤检测能力。
有了标准化的评估体系,才能谈可靠性。那他们接下来还有什么规划?
下一步更有野心。他们在设计一个分布式协同探索系统,让巡视车和无人机组成多Agent编队一起探索。还要配上便携式显微镜、气相色谱仪、质谱仪,甚至还有一个150美元的低成本机械臂,用视觉-语言-动作模型来控制。但最核心的目标是——开发一个能自主设计实验的AI Agent。就是说你告诉它有哪些仪器可以用,它自己推断出能做什么科学研究。
这不就是萨根当年说的那个愿景吗?自主思考、自主探索。只不过当年是科幻,现在有了大语言模型,变成了一条可以走的工程路径。
对,而且MARVIS最让我觉得有意义的一点是,它证明了这条路径的起点比我们想象的要低。你不需要专门训练一个行星科学大模型,一个量化过的小模型加上好的提示词工程和Agent架构,就已经能展现出相当不错的科学分析能力。当然从POC到真正上天还有很长的路,可靠性验证、抗辐射加固、长期运行稳定性,这些工程挑战一个都不能少。但至少技术基础已经初步具备了,这个信号本身就很振奋。
说得好。从40亿参数的小模型到自主设计实验的太空AI,这中间的每一步都值得持续关注。也许再过几年,我们真的能看到一个探测器在火星上自己决定今天往哪走、研究哪块石头。那种感觉,大概就是萨根当年最想看到的吧。