前沿论文解读·当科学走到「不可证伪」的边界

欢迎回来，今天咱们前沿论文解读专栏聊一个我觉得特别有意思的话题。

这周我看了两组素材，一组是费米实验室物理学家聊弦理论是不是已经死了，另一组是AI这边又炸了一堆新闻。

这俩放一起聊？乍一看八竿子打不着，但你要往深了想，它们其实在回答同一个问题。

什么问题？

就是——一个足够强大的智能系统，到底应该用什么标准来评价它？是看它的理论多优美，还是看它能不能真正解决问题？

你这个切入角度我喜欢。先说弦理论那边吧，Don Lincoln在Lex Fridman播客上说的那些，你怎么看？

Lincoln的核心观点其实很残酷：弦理论不是被推翻的，是被年轻人抛弃的。

因为它有个致命问题叫景观问题，允许10的500次方种可能的宇宙。一个理论能解释一切，等于什么都没解释。

等等，10的500次方是什么概念？我做产品的时候，一个A/B测试跑三组我都嫌多。

你把宇宙中所有原子数加起来，大概也就10的80次方。500次方意味着你永远不可能穷举，也永远找不到一个实验来告诉你哪个版本是对的。

所以它本质上就没法证伪了？

对，这就是波普尔当年定义的科学边界——不可证伪的东西，严格来说不算科学命题。弦理论现在卡在一个很尴尬的位置：数学上极其优美，物理上无法检验。

这让我想到AI这边的事。你说GPT 5.5 Pro帮菲尔兹奖得主一小时证出一个数学定理，那个证明到底算不算可靠？

Timothy Gowers那个案例特别值得细说。他用的是还没公开发布的模型，在多轮交互下把一个指数级上界改进到了多项式级。MIT的学生审阅后说逻辑严密、思想巧妙。

但问题是别人没法复现啊，模型没公开。

你看，这就跟弦理论的困境形成了一个有趣的镜像。弦理论是理论太多、无法选择；AI证明是过程不透明、无法独立复现。两个都触碰到了科学方法论的边界。

你这么一说我突然有点背后发凉。我们做产品评测的时候，至少还能跑benchmark，但如果模型的能力已经超出了人类能验证的范围呢？

这就是关键。Claude那个Mythos Preview更夸张，自主任务能力已经突破16小时了，是之前最强模型的两倍。

16小时意味着你睡一觉起来，它还在干活。

对，METR管这叫隔夜级任务。但你想想，一个系统连续自主运行16小时，中间的决策链条有多长？人类真的能审计每一步吗？

这不就是弦理论的景观问题换了个马甲吗？解空间太大，人类没法穷举验证。

你这个类比我给满分。本质上都是同一类困境：系统的复杂度超过了人类的验证能力。

但两边的应对策略完全不同。弦理论那边，Lincoln说年轻科学家在用脚投票，直接不做了。

AI这边恰好相反，所有人都在往里冲。百度文心5.1把参数压到三分之一、成本降到6%，DeepSeek六月要推全模态V4.1，军备竞赛只会越来越猛。

所以一个是因为不可验证而衰落，一个是尽管不完全可验证但因为太有用而狂飙。

这就是实用主义和纯粹科学的分野。弦理论没有工程价值兜底，一旦失去预测能力就只剩数学美感。AI不一样，它能帮你写代码、证定理、裁员省钱。

说到裁员，Cloudflare因为AI效率提升直接裁了20%，这个数字挺刺眼的。

而且这才刚开始。当Claude能自主跑16小时任务的时候，很多需要人值守的岗位确实会被替代。这不是预测了，是正在发生的事。

我最近也在想这个问题。我们组有个实习生用AI一天干完了以前一周的活，我当时心情挺复杂的。

你应该复杂。但换个角度，如果弦理论当年也能像AI一样每周给出可验证的成果，它不至于走到今天这步。

所以你觉得弦理论真的死了吗？

Lincoln说得好，弦理论不会被杀死，它会被遗忘。没有年轻人愿意把职业生涯赌在一个可能永远无法验证的理论上。这比被证伪更悲哀。

反过来说，AI现在这么热，会不会也有泡沫？毕竟GPT 5.5的证明过程也没法独立复现。

泡沫肯定有，但AI有一个弦理论没有的安全网：它的中间产物是有用的。哪怕最终没实现AGI，光是现在这些能力就已经在改变产业了。

好，最后帮大家总结一下今天这期。我们从弦理论的景观问题聊到AI的验证困境，发现它们本质上面对的是同一个挑战——当系统复杂度超过人类验证能力时，我们该怎么办。

弦理论选择了等待，结果等来了被遗忘。AI选择了先跑起来再说，但可解释性和可验证性的欠账迟早要还。

给大家留一个思考题：如果有一天AI给出了一个人类完全无法理解、但实验证明正确的物理理论，你觉得那还算科学吗？

这个问题可能比弦理论本身还难回答。咱们下期接着聊。

相关推荐