AlphaGo十周年：哈萨比斯重返韩国与李世石重逢，AI如何改变围棋

AlphaGo的十年回响

DeepMind创始人德米斯·哈萨比斯（Demis Hassabis）近日在社交媒体上感慨："难以置信，距离AlphaGo已经过去了十年！"上周他重返韩国，与当年那场举世瞩目的人机大战的对手——李世石（Lee Sae Dol）重逢叙旧，并与当今围棋顶尖棋手申真谞（Shin Jin-seo）进行了一场特别的围棋对弈。

这不仅仅是一次简单的故人重逢，更是对AI发展史上一个标志性时刻的深度回望。

2016年人机大战：改变世界的五盘棋

2016年3月，AlphaGo与李世石在首尔进行的五番棋大战，是人工智能发展历程中最具象征意义的事件之一。AlphaGo以4:1的比分获胜，震惊了全球。围棋因其天文数字般的棋局变化（约10的170次方），长期被认为是AI在棋类博弈中最难攻克的堡垒。

要理解这一成就的分量，需要认识围棋的复杂度。围棋棋盘为19×19的网格，共有361个交叉点，每个点有黑、白、空三种状态，理论上的棋局状态空间约为10的170次方——这个数字远超可观测宇宙中的原子总数（约10的80次方）。相比之下，国际象棋的状态空间约为10的47次方。正因如此，传统的穷举搜索方法在围棋中完全失效。在AlphaGo之前，最强的围棋AI仅能达到业余中等水平，与职业棋手之间存在巨大鸿沟。

AlphaGo之所以能实现这一突破，在于其创新性的技术架构。它结合了深度学习与蒙特卡洛树搜索（MCTS）两大技术。深度学习方面，它使用了两个关键的神经网络：策略网络（Policy Network）负责预测下一步最可能的走法，从而大幅缩小搜索范围；价值网络（Value Network）负责评估当前棋局的胜率。蒙特卡洛树搜索则是一种通过随机模拟来评估决策的算法，它不需要穷举所有可能，而是通过大量随机对局的统计结果来判断哪步棋更优。AlphaGo首先用人类职业棋手的棋谱进行监督学习训练，然后通过自我对弈的强化学习不断提升。正是这种"先学人类、再超越人类"的训练范式，使AlphaGo的胜利标志着深度学习和强化学习技术取得了里程碑式的突破。

那场比赛中，李世石在第四局下出的"神之一手"（第78手），至今仍被视为人类智慧在AI面前最闪耀的瞬间之一。而AlphaGo在第二局中下出的第37手，则被职业棋手评价为"超越人类认知"的一步棋，彻底颠覆了围棋界对某些棋形的传统理解。

AI如何重塑围棋的思维方式

哈萨比斯在此次重逢中特别提到，他非常感兴趣地了解到AlphaGo如何改变了棋手们对待围棋的方式。这一变化值得深入分析。

布局理论的全面革新

AlphaGo及其后续版本AlphaGo Zero带来的最直接影响，是围棋布局理论的全面革新。过去数百年间被视为"定式"的开局走法，许多被证明并非最优。AI偏好的一些下法——比如更频繁地使用"点三三"入侵、更灵活的布局思路——已经被当今职业棋手广泛采纳。

具体而言，"点三三"是指棋盘角部三路与三路的交叉点。在传统围棋理论中，开局直接占据点三三被认为过于保守和局促，职业棋手通常选择星位（四路与四路交叉点）或小目等位置开局。然而AlphaGo及其后续版本频繁在开局阶段直接点三三，或对对手的星位棋子进行点三三入侵，且时机选择远早于传统理论所建议的时点。AI的分析表明，这些被人类棋手忽视了数百年的下法，实际上在胜率上具有微妙的优势。这一发现动摇了围棋界长期以来"厚势优于实地"的主流价值观，促使整个布局理论体系的重构。

2017年发布的AlphaGo Zero更是代表了一次深层的技术突破。与初代AlphaGo不同，AlphaGo Zero完全不依赖人类棋谱数据，仅从围棋规则出发，通过纯粹的自我对弈强化学习，在短短40天内就超越了所有前代版本的水平。这意味着AI不仅能学习人类的知识，还能从零开始自主发现知识，甚至发现人类数千年来未曾发现的策略。这一成果深刻影响了AI研究的方向，表明在规则明确的领域，自我博弈可能比模仿人类更高效。

职业棋手训练方式的变革

如今，几乎所有顶级职业棋手都将AI作为核心训练工具。申真谞正是这一代"AI训练"棋手的杰出代表，他被广泛认为是当今世界最强的围棋棋手。棋手们通过与AI对弈、分析AI的推荐走法来提升棋力，这在十年前完全不可想象。

对"正确下法"的重新定义

更深层的变化在于思维模式的转变。过去围棋界强调"棋理"——基于经验和直觉的判断体系。AI的出现让棋手们意识到，许多被奉为圭臬的"棋理"实际上存在偏见。这促使新一代棋手以更开放的心态探索棋盘上的可能性，减少了对权威和传统的盲从。

从围棋到通用AI：DeepMind的十年跨越

回顾这十年，AlphaGo的意义远超围棋本身。它验证了深度强化学习的巨大潜力，直接推动了DeepMind在蛋白质结构预测（AlphaFold）、数学推理（AlphaProof）等领域的突破。哈萨比斯本人也因AlphaFold的贡献获得了2024年诺贝尔化学奖。

AlphaFold所攻克的蛋白质折叠问题，是生物学领域长达50年的重大挑战。蛋白质由氨基酸链组成，其三维折叠结构决定了生物功能，但从氨基酸序列预测三维结构极其困难。传统的实验方法（如X射线晶体学、冷冻电镜）测定一个蛋白质结构可能需要数月甚至数年。2020年，DeepMind的AlphaFold2在蛋白质结构预测竞赛CASP14中达到了接近实验精度的预测水平，随后DeepMind公开了超过2亿个蛋白质的预测结构数据库，覆盖了几乎所有已知蛋白质。这一突破正在加速药物研发、酶工程、疾病机理研究等多个领域的进展，被《自然》杂志称为"AI对科学最重大的贡献之一"。

从AlphaGo到如今的大语言模型和多模态AI，人工智能在十年间经历了爆发式发展。AlphaGo当年证明的核心命题——AI可以在需要直觉和创造力的复杂任务中超越人类——如今正在一个又一个领域得到验证。

这一从专用AI到通用AI的技术演进路径值得关注。AlphaGo属于"窄AI"或"专用AI"——它只能在围棋这一特定任务上表现卓越，无法迁移到其他领域。而当今的大语言模型（如GPT系列、Gemini等）和多模态AI则展现出一定程度的通用能力，能够处理文本生成、代码编写、图像理解、逻辑推理等多种任务。这一跨越的关键技术基础包括：Transformer架构（2017年由Google提出）带来的注意力机制革命、大规模预训练范式的确立、以及从人类反馈中进行强化学习（RLHF）等训练方法的成熟。值得注意的是，RLHF中的强化学习思想与AlphaGo的训练方法一脉相承，AlphaGo可以被视为当今通用AI技术路线的重要先驱。

人机关系的启示：AI没有杀死围棋

李世石在2019年退役时曾表示，AI是"不可战胜的存在"。但十年后回看，人与AI的关系并非简单的对抗与替代。围棋的故事恰恰说明，AI可以成为人类认知的放大器——它没有杀死围棋，反而让这项古老的游戏焕发了新的生命力。全球围棋人口在AlphaGo之后显著增长，围棋的竞技水平也达到了前所未有的高度。

哈萨比斯与李世石的这次重逢，是技术史上一个温暖的注脚。它提醒我们，在AI飞速发展的今天，那些最具突破性的时刻，往往也是最具人文温度的时刻。

核心要点

DeepMind创始人哈萨比斯重返韩国，与李世石重逢并与申真谞对弈，纪念AlphaGo十周年
AlphaGo深刻改变了职业围棋的布局理论、训练方式和思维模式，AI已成为棋手核心训练工具
AlphaGo验证的深度强化学习路径，推动了DeepMind在蛋白质预测、数学推理等领域的后续突破
围棋的案例表明AI可以成为人类认知的放大器，而非简单的替代者
从AlphaGo到大语言模型，AI在十年间经历了从特定领域到通用能力的爆发式发展