AlphaGo十周年:哈萨比斯重返韩国与李世石重逢,AI如何改变围棋

AlphaGo十周年回顾:从改变围棋到推动通用AI发展
DeepMind创始人哈萨比斯重返韩国纪念AlphaGo十周年,与李世石重逢并与申真谞对弈。文章回顾了2016年人机大战的技术突破,分析了AlphaGo如何全面革新围棋布局理论和训练方式,并梳理了从AlphaGo到AlphaFold再到大语言模型的十年AI演进路径,指出AI是人类认知的放大器而非替代者。
AlphaGo的十年回响
DeepMind创始人德米斯·哈萨比斯(Demis Hassabis)近日在社交媒体上感慨:"难以置信,距离AlphaGo已经过去了十年!"上周他重返韩国,与当年那场举世瞩目的人机大战的对手——李世石(Lee Sae Dol)重逢叙旧,并与当今围棋顶尖棋手申真谞(Shin Jin-seo)进行了一场特别的围棋对弈。
这不仅仅是一次简单的故人重逢,更是对AI发展史上一个标志性时刻的深度回望。
2016年人机大战:改变世界的五盘棋
2016年3月,AlphaGo与李世石在首尔进行的五番棋大战,是人工智能发展历程中最具象征意义的事件之一。AlphaGo以4:1的比分获胜,震惊了全球。围棋因其天文数字般的棋局变化(约10的170次方),长期被认为是AI在棋类博弈中最难攻克的堡垒。
要理解这一成就的分量,需要认识围棋的复杂度。围棋棋盘为19×19的网格,共有361个交叉点,每个点有黑、白、空三种状态,理论上的棋局状态空间约为10的170次方——这个数字远超可观测宇宙中的原子总数(约10的80次方)。相比之下,国际象棋的状态空间约为10的47次方。正因如此,传统的穷举搜索方法在围棋中完全失效。在AlphaGo之前,最强的围棋AI仅能达到业余中等水平,与职业棋手之间存在巨大鸿沟。
AlphaGo之所以能实现这一突破,在于其创新性的技术架构。它结合了深度学习与蒙特卡洛树搜索(MCTS)两大技术。深度学习方面,它使用了两个关键的神经网络:策略网络(Policy Network)负责预测下一步最可能的走法,从而大幅缩小搜索范围;价值网络(Value Network)负责评估当前棋局的胜率。蒙特卡洛树搜索则是一种通过随机模拟来评估决策的算法,它不需要穷举所有可能,而是通过大量随机对局的统计结果来判断哪步棋更优。AlphaGo首先用人类职业棋手的棋谱进行监督学习训练,然后通过自我对弈的强化学习不断提升。正是这种"先学人类、再超越人类"的训练范式,使AlphaGo的胜利标志着深度学习和强化学习技术取得了里程碑式的突破。
那场比赛中,李世石在第四局下出的"神之一手"(第78手),至今仍被视为人类智慧在AI面前最闪耀的瞬间之一。而AlphaGo在第二局中下出的第37手,则被职业棋手评价为"超越人类认知"的一步棋,彻底颠覆了围棋界对某些棋形的传统理解。
AI如何重塑围棋的思维方式
哈萨比斯在此次重逢中特别提到,他非常感兴趣地了解到AlphaGo如何改变了棋手们对待围棋的方式。这一变化值得深入分析。
布局理论的全面革新
AlphaGo及其后续版本AlphaGo Zero带来的最直接影响,是围棋布局理论的全面革新。过去数百年间被视为"定式"的开局走法,许多被证明并非最优。AI偏好的一些下法——比如更频繁地使用"点三三"入侵、更灵活的布局思路——已经被当今职业棋手广泛采纳。
具体而言,"点三三"是指棋盘角部三路与三路的交叉点。在传统围棋理论中,开局直接占据点三三被认为过于保守和局促,职业棋手通常选择星位(四路与四路交叉点)或小目等位置开局。然而AlphaGo及其后续版本频繁在开局阶段直接点三三,或对对手的星位棋子进行点三三入侵,且时机选择远早于传统理论所建议的时点。AI的分析表明,这些被人类棋手忽视了数百年的下法,实际上在胜率上具有微妙的优势。这一发现动摇了围棋界长期以来"厚势优于实地"的主流价值观,促使整个布局理论体系的重构。
2017年发布的AlphaGo Zero更是代表了一次深层的技术突破。与初代AlphaGo不同,AlphaGo Zero完全不依赖人类棋谱数据,仅从围棋规则出发,通过纯粹的自我对弈强化学习,在短短40天内就超越了所有前代版本的水平。这意味着AI不仅能学习人类的知识,还能从零开始自主发现知识,甚至发现人类数千年来未曾发现的策略。这一成果深刻影响了AI研究的方向,表明在规则明确的领域,自我博弈可能比模仿人类更高效。
职业棋手训练方式的变革
如今,几乎所有顶级职业棋手都将AI作为核心训练工具。申真谞正是这一代"AI训练"棋手的杰出代表,他被广泛认为是当今世界最强的围棋棋手。棋手们通过与AI对弈、分析AI的推荐走法来提升棋力,这在十年前完全不可想象。
对"正确下法"的重新定义
更深层的变化在于思维模式的转变。过去围棋界强调"棋理"——基于经验和直觉的判断体系。AI的出现让棋手们意识到,许多被奉为圭臬的"棋理"实际上存在偏见。这促使新一代棋手以更开放的心态探索棋盘上的可能性,减少了对权威和传统的盲从。
从围棋到通用AI:DeepMind的十年跨越
回顾这十年,AlphaGo的意义远超围棋本身。它验证了深度强化学习的巨大潜力,直接推动了DeepMind在蛋白质结构预测(AlphaFold)、数学推理(AlphaProof)等领域的突破。哈萨比斯本人也因AlphaFold的贡献获得了2024年诺贝尔化学奖。
AlphaFold所攻克的蛋白质折叠问题,是生物学领域长达50年的重大挑战。蛋白质由氨基酸链组成,其三维折叠结构决定了生物功能,但从氨基酸序列预测三维结构极其困难。传统的实验方法(如X射线晶体学、冷冻电镜)测定一个蛋白质结构可能需要数月甚至数年。2020年,DeepMind的AlphaFold2在蛋白质结构预测竞赛CASP14中达到了接近实验精度的预测水平,随后DeepMind公开了超过2亿个蛋白质的预测结构数据库,覆盖了几乎所有已知蛋白质。这一突破正在加速药物研发、酶工程、疾病机理研究等多个领域的进展,被《自然》杂志称为"AI对科学最重大的贡献之一"。
从AlphaGo到如今的大语言模型和多模态AI,人工智能在十年间经历了爆发式发展。AlphaGo当年证明的核心命题——AI可以在需要直觉和创造力的复杂任务中超越人类——如今正在一个又一个领域得到验证。
这一从专用AI到通用AI的技术演进路径值得关注。AlphaGo属于"窄AI"或"专用AI"——它只能在围棋这一特定任务上表现卓越,无法迁移到其他领域。而当今的大语言模型(如GPT系列、Gemini等)和多模态AI则展现出一定程度的通用能力,能够处理文本生成、代码编写、图像理解、逻辑推理等多种任务。这一跨越的关键技术基础包括:Transformer架构(2017年由Google提出)带来的注意力机制革命、大规模预训练范式的确立、以及从人类反馈中进行强化学习(RLHF)等训练方法的成熟。值得注意的是,RLHF中的强化学习思想与AlphaGo的训练方法一脉相承,AlphaGo可以被视为当今通用AI技术路线的重要先驱。
人机关系的启示:AI没有杀死围棋
李世石在2019年退役时曾表示,AI是"不可战胜的存在"。但十年后回看,人与AI的关系并非简单的对抗与替代。围棋的故事恰恰说明,AI可以成为人类认知的放大器——它没有杀死围棋,反而让这项古老的游戏焕发了新的生命力。全球围棋人口在AlphaGo之后显著增长,围棋的竞技水平也达到了前所未有的高度。
哈萨比斯与李世石的这次重逢,是技术史上一个温暖的注脚。它提醒我们,在AI飞速发展的今天,那些最具突破性的时刻,往往也是最具人文温度的时刻。
核心要点
- DeepMind创始人哈萨比斯重返韩国,与李世石重逢并与申真谞对弈,纪念AlphaGo十周年
- AlphaGo深刻改变了职业围棋的布局理论、训练方式和思维模式,AI已成为棋手核心训练工具
- AlphaGo验证的深度强化学习路径,推动了DeepMind在蛋白质预测、数学推理等领域的后续突破
- 围棋的案例表明AI可以成为人类认知的放大器,而非简单的替代者
- 从AlphaGo到大语言模型,AI在十年间经历了从特定领域到通用能力的爆发式发展
相关推荐
科技前沿GitHub Agent HQ发布:AI编程工具进入平台化竞争时代
GitHub Universe大会发布Agent HQ平台,统一管理编码Agent,Copilot升级支持多模型集成。同期OpenAI完成重组,Anthropic新模型测试,NVIDIA开源系列AI模型,AI编程工具格局加速整合。
科技前沿Gemini 3.5 Flash在GDPval基准上实现巨大飞跃
Google Gemini 3.5 Flash在GDPval基准测试中超越Gemini 3.1 Pro,轻量级Flash模型借助后训练技术逼近前沿水平,重新定义性能与成本的平衡点,为AI应用开发者带来重大利好。
科技前沿Google Gemini Antigravity周配额三倍提升,AI编程不再受限
Google Gemini团队再次将Antigravity周配额提升至三倍,继日配额提升后再次加码。本文解析此次配额调整对开发者的实际影响,以及在AI编程助手竞争格局中的战略意义。