前沿论文解读·当科学走到「不可证伪」的边界
前沿论文解读·当科学走到「不可证伪」的边界
每周五解读本周最值得关注的AI研究论文
每周五解读本周最值得关注的AI研究论文
欢迎回来,今天咱们前沿论文解读专栏聊一个我觉得特别有意思的话题。
这周我看了两组素材,一组是费米实验室物理学家聊弦理论是不是已经死了,另一组是AI这边又炸了一堆新闻。
这俩放一起聊?乍一看八竿子打不着,但你要往深了想,它们其实在回答同一个问题。
什么问题?
就是——一个足够强大的智能系统,到底应该用什么标准来评价它?是看它的理论多优美,还是看它能不能真正解决问题?
你这个切入角度我喜欢。先说弦理论那边吧,Don Lincoln在Lex Fridman播客上说的那些,你怎么看?
Lincoln的核心观点其实很残酷:弦理论不是被推翻的,是被年轻人抛弃的。
因为它有个致命问题叫景观问题,允许10的500次方种可能的宇宙。一个理论能解释一切,等于什么都没解释。
等等,10的500次方是什么概念?我做产品的时候,一个A/B测试跑三组我都嫌多。
你把宇宙中所有原子数加起来,大概也就10的80次方。500次方意味着你永远不可能穷举,也永远找不到一个实验来告诉你哪个版本是对的。
所以它本质上就没法证伪了?
对,这就是波普尔当年定义的科学边界——不可证伪的东西,严格来说不算科学命题。弦理论现在卡在一个很尴尬的位置:数学上极其优美,物理上无法检验。
这让我想到AI这边的事。你说GPT 5.5 Pro帮菲尔兹奖得主一小时证出一个数学定理,那个证明到底算不算可靠?
Timothy Gowers那个案例特别值得细说。他用的是还没公开发布的模型,在多轮交互下把一个指数级上界改进到了多项式级。MIT的学生审阅后说逻辑严密、思想巧妙。
但问题是别人没法复现啊,模型没公开。
你看,这就跟弦理论的困境形成了一个有趣的镜像。弦理论是理论太多、无法选择;AI证明是过程不透明、无法独立复现。两个都触碰到了科学方法论的边界。
你这么一说我突然有点背后发凉。我们做产品评测的时候,至少还能跑benchmark,但如果模型的能力已经超出了人类能验证的范围呢?
这就是关键。Claude那个Mythos Preview更夸张,自主任务能力已经突破16小时了,是之前最强模型的两倍。
16小时意味着你睡一觉起来,它还在干活。
对,METR管这叫隔夜级任务。但你想想,一个系统连续自主运行16小时,中间的决策链条有多长?人类真的能审计每一步吗?
这不就是弦理论的景观问题换了个马甲吗?解空间太大,人类没法穷举验证。
你这个类比我给满分。本质上都是同一类困境:系统的复杂度超过了人类的验证能力。
但两边的应对策略完全不同。弦理论那边,Lincoln说年轻科学家在用脚投票,直接不做了。
AI这边恰好相反,所有人都在往里冲。百度文心5.1把参数压到三分之一、成本降到6%,DeepSeek六月要推全模态V4.1,军备竞赛只会越来越猛。
所以一个是因为不可验证而衰落,一个是尽管不完全可验证但因为太有用而狂飙。
这就是实用主义和纯粹科学的分野。弦理论没有工程价值兜底,一旦失去预测能力就只剩数学美感。AI不一样,它能帮你写代码、证定理、裁员省钱。
说到裁员,Cloudflare因为AI效率提升直接裁了20%,这个数字挺刺眼的。
而且这才刚开始。当Claude能自主跑16小时任务的时候,很多需要人值守的岗位确实会被替代。这不是预测了,是正在发生的事。
我最近也在想这个问题。我们组有个实习生用AI一天干完了以前一周的活,我当时心情挺复杂的。
你应该复杂。但换个角度,如果弦理论当年也能像AI一样每周给出可验证的成果,它不至于走到今天这步。
所以你觉得弦理论真的死了吗?
Lincoln说得好,弦理论不会被杀死,它会被遗忘。没有年轻人愿意把职业生涯赌在一个可能永远无法验证的理论上。这比被证伪更悲哀。
反过来说,AI现在这么热,会不会也有泡沫?毕竟GPT 5.5的证明过程也没法独立复现。
泡沫肯定有,但AI有一个弦理论没有的安全网:它的中间产物是有用的。哪怕最终没实现AGI,光是现在这些能力就已经在改变产业了。
好,最后帮大家总结一下今天这期。我们从弦理论的景观问题聊到AI的验证困境,发现它们本质上面对的是同一个挑战——当系统复杂度超过人类验证能力时,我们该怎么办。
弦理论选择了等待,结果等来了被遗忘。AI选择了先跑起来再说,但可解释性和可验证性的欠账迟早要还。
给大家留一个思考题:如果有一天AI给出了一个人类完全无法理解、但实验证明正确的物理理论,你觉得那还算科学吗?
这个问题可能比弦理论本身还难回答。咱们下期接着聊。
相关推荐
科技前沿GitHub Agent HQ发布:AI编程工具进入平台化竞争时代
GitHub Universe大会发布Agent HQ平台,统一管理编码Agent,Copilot升级支持多模型集成。同期OpenAI完成重组,Anthropic新模型测试,NVIDIA开源系列AI模型,AI编程工具格局加速整合。
科技前沿Gemini 3.5 Flash在GDPval基准上实现巨大飞跃
Google Gemini 3.5 Flash在GDPval基准测试中超越Gemini 3.1 Pro,轻量级Flash模型借助后训练技术逼近前沿水平,重新定义性能与成本的平衡点,为AI应用开发者带来重大利好。
科技前沿Google Gemini Antigravity周配额三倍提升,AI编程不再受限
Google Gemini团队再次将Antigravity周配额提升至三倍,继日配额提升后再次加码。本文解析此次配额调整对开发者的实际影响,以及在AI编程助手竞争格局中的战略意义。