上交大PhyAR：破解Video-LLM物理推理中的语义先验劫持难题

AI看视频时的「想当然」问题

你是否想过，当AI观看一段违反物理定律的视频时，它会怎么反应？答案可能让你大跌眼镜——它不仅不会指出异常，反而会理直气壮地解释「这很正常」。

上海交通大学最新发表的一项研究揭示了当前Video-LLM（视频大语言模型）的一个核心缺陷：模型不是看不见物理异常，而是「想太多」。语义先验（Semantic Prior）像一个隐形的劫持者，压倒了模型的视觉感知能力，让它用主观预期覆盖客观事实。研究团队提出了PACC数据集和VARC（视觉锚定推理链）机制，无需修改模型架构，就能让AI重新「看见」物理现实。

什么是Video-LLM？ Video-LLM是多模态大语言模型在视频理解领域的延伸，其核心架构通常由三部分组成：视觉编码器（Vision Encoder，如CLIP或ViT）负责提取视频帧的视觉特征；投影层（Projector）将视觉特征映射到语言模型的语义空间；以及大语言模型主干（LLM Backbone）负责跨模态推理与文本生成。代表性模型包括VideoLLaMA、Video-ChatGPT、GPT-4V等。这类模型在视频问答、视频描述等任务上表现出色，但其推理机制高度依赖训练数据中积累的统计规律，这正是语义先验问题的根源所在。

语义先验如何劫持物理推理

双重失效的本质

论文通过三组精巧的实验揭示了问题的本质。在反物理和反直觉场景下，Video-LLM会因逻辑或统计先验产生错误推理，完全忽略客观视觉证据。更令人惊讶的是，当研究者尝试给模型注入物理知识时，错误合理化反而加剧了——模型变得更擅长「编造理由」来解释明显违规的现象。

然而，通过单帧空间关系描述实验，研究者证明模型的底层（Low-Level）感知能力其实是完好的。这排除了「感知缺陷」的假设，将问题根源锁定在语义先验劫持推理过程上。

语义先验的深层机制 语义先验（Semantic Prior）源自贝叶斯推理框架，指模型在处理新输入时，基于训练数据中积累的统计规律形成的「预设期望」。在大语言模型中，这种先验通过海量文本与图像数据的联合训练被深度编码进模型权重。例如，模型见过数百万张「杯子掉落→破碎」的图文对，便会形成强烈的因果先验。当视觉输入与这种先验冲突时，模型倾向于「相信」先验而非视觉证据——这在认知科学中类似于人类的「确认偏误」（Confirmation Bias）。语义先验本身并非缺陷，它在常规场景下能显著提升推理效率，但在反物理或边缘场景中便成为致命的认知盲点。

统一归因理论

论文首次提出了一个关键洞察：模型在反直觉场景中的严重谬误与反物理失败在本质上是同源的。无论是违背客观物理规律（如物体凭空消失），还是违背统计预期（如杯子掉落却没碎），模型失败的根源都是语义先验的惯性压倒了视觉感知的客观性。先验在这里充当了一个「感知旁路」，直接瘫痪了模型锚定物理事实的能力。

PACC数据集：精准诊断物理推理缺陷

构建流程与设计理念

PACC数据集采用了Human-in-the-Loop（HITL）范式，分为四个严谨的阶段：

阶段一和二：筛选正样本并进行视觉事实锚定，利用AI生成结合专家评审，剔除任何主观推测，保留纯粹的视觉事实
阶段三和四：进行对抗生成与双专家评审，通过手动CV编辑或AI生成合成负样本，并生成Code标签

PACC数据集构建流程

为什么选择HITL范式？ Human-in-the-Loop（人机协同）是一种将人类专家判断嵌入AI系统训练或评估流程的方法论，在数据标注、模型对齐和质量控制领域被广泛采用。与纯自动化标注相比，HITL能有效处理需要专业判断的模糊边界案例，但代价是显著提升了数据构建成本与时间。在AI安全与对齐领域，RLHF（基于人类反馈的强化学习）是HITL最具代表性的应用。PACC采用HITL范式，正是因为物理规律的违反往往需要领域专家才能准确判断——纯自动化标注极易引入噪声，导致模型学习到错误的判断依据，最终退化为依赖像素级伪影的「伪装检测器」。

最终数据集严格解耦了生成伪影与真实物理谬误，防止模型依赖像素级的捷径退化为「伪影检测器」，迫使模型必须基于深层物理逻辑进行判断。

双流分类体系

PACC包含反物理与反直觉双流，覆盖8个细粒度物理谬误维度：

反物理流：针对合理化谬误，构建违反客观规律的高保真场景，如连贯性破坏、因果倒置、物体消失、身份突变等
反直觉流：针对刻板谬误，构建违背统计预期但物理合理的场景，如近失（Near-Miss）和后果终止等

PACC分类体系与异常标注

数据集虽然因严格的HITL专家验证目前仅含758对样本，规模相对有限，但这种设计优先保证了高保真度与物理严谨性，使其成为精确的物理推理诊断基准。

VARC机制：切断语义捷径的推理链重构

三步强制推理流程

VARC将推理过程重构为有向马尔可夫链，切断与视觉无关的语义捷径，包含三个强制步骤：

强制观察：提取明确的视觉证据（如阴影变化），阻断由语义补全驱动的幻觉
因果归因：基于客观观测与物理知识进行逻辑冲突检测，例如根据光学定律判断阴影缺失是否违规
证据裁决：最终判决严格受限于前置的观察与归因节点

有向马尔可夫链的推理意义 有向马尔可夫链在概率论中描述一种「无记忆」的状态转移过程：当前状态仅依赖于