从GPT-1到ChatGPT：伊利亚的赌注如何点燃AI革命

引言：一个被嘲讽为"垃圾"的起点

2018年6月，OpenAI发布了一篇当时看起来并不起眼的论文——《通过生成式预训练提高语言理解能力》。论文提出了一种新的语言模型：Generative Pre-training Transformer，简称GPT。这是GPT系列的第一个版本，后来人们把它叫做GPT-1。

GPT-1的表现不尽人意，它常常答非所问、语无伦次。作为OpenAI曾经最大的金主，马斯克觉得这是"垃圾"，并向OpenAI发送了一封措辞严厉的电子邮件："如果不在执行力和资源上进行大幅度的改革，我认为OpenAI在与DeepMind或谷歌的竞争中能够胜出的可能性几乎为零。"

GPT-1经常难以生成连贯的回答

但在OpenAI首席科学家伊利亚·苏茨克维看来，这仅仅是个开始。他决定带领团队压住这一路线。当时，很少有人会意识到这个胡说八道的语言模型最终将永远地改变这个世界。

Transformer的诞生与OpenAI的机遇

谷歌的发明，却被谷歌忽视

2017年年中，谷歌研究团队发表了划时代论文《Attention is All You Need》，提出了全新的神经网络架构——Transformer。在谷歌内部，研究人员曾将Transformer用于机器翻译、文本生成和音乐创作，并取得了令人惊讶的效果。

但谷歌高层似乎并没有看到这项技术的潜在价值。彼时，谷歌搜索引擎在全球的垄断地位让公司逐渐变得官僚化和臃肿，他们一次次挫败了Transformer团队将技术产品化的尝试。这给了OpenAI机会。

伊利亚的先知直觉

伊利亚迅速意识到了Transformer的潜力。早在多伦多大学跟随导师杰弗里·辛顿学习期间，他的博士论文便集中在如何有效训练序列模型这一问题上。传统的循环神经网络很难学习长距离依赖关系，而Transformer恰好解决了这个问题。

他开始在办公室里大力宣扬Transformer。据麻省理工学院的研究员回忆，Transformer在当时看起来只是一种小众架构。但伊利亚在AI领域拥有先知般的威望——他是AlexNet和Sequence to Sequence的主要作者，还参与了AlphaGo的研究工作。一位研究员说："伊利亚能看到十年后的未来。"

拉德福德的关键决定

在伊利亚的影响下，研究员亚历克·拉德福德开始对Transformer进行测试。他做出了一个命运攸关的决定：改变Transformer需要学习的任务。当时在谷歌，Transformer主要被用于机器翻译，而拉德福德让模型执行另一种任务——预测下一个词。

这一看似简单的训练目标背后，蕴含着深刻的哲学洞见。伊利亚曾多次表达过一个观点："智能就是压缩。训练一个模型去生成令人信服的东西，将迫使它把关于世界的信息压缩成基本本质。"

Scaling Law：从直觉到定律

伊利亚的规模信仰

伊利亚对模型规模有着坚定不移的信念。他曾表示："只要拥有非常大的数据集以及非常大的神经网络，成功就会随之而来。当神经网络变得像大脑一样大时，理解和智能就可能涌现。"

有时他会在办公室里来回踱步，突然出现在某个会议室中，然后像先知一样反复强调同一个信息：扩大规模，扩大规模，扩大规模。

GPT-2：质变的开始

拉德福德获得了更多算力来扩大GPT的规模。话说回来，另一位研究员达里奥·阿莫代伊的工作也逐渐与这一项目交汇。他们联手将GPT-1的规模扩大10倍以上，打造了一个拥有15亿参数的语言模型。

随着模型规模不断扩大，研究人员注意到了令他们无比惊讶的现象：模型性能的提升似乎遵循着某种数学规律。训练数据规模、算力投入、模型参数数量——这些变量与模型性能之间的关系可以被一条平滑的曲线描述。

阿莫代伊领导的团队将这条曲线命名为Scaling Law。这意味着伊利亚的直觉很可能完全正确：仅仅是扩大规模本身，就可能成为推动AI进步的核心方法。

GPT-3：万卡GPU的疯狂实验

一个"荒谬"的提议

作为投资协议的一部分，微软为OpenAI建造了一台配备约1万张英伟达V100 GPU的超级计算机。阿莫代伊提出了一个大胆的建议：一次性动用1万张GPU训练一个新的语言模型。

许多人认为阿莫代伊疯了

许多人认为阿莫代伊疯了。此前在几十张GPU上训练模型就已经被称为"大规模"，在顶级大学里博士生如果能独占10张GPU已算奢侈。但阿莫代伊态度坚决，OpenAI的领导层也支持这个计划。

吞噬互联网

2019年秋天，阿莫代伊组建了名为NUST的内部团队负责开发GPT-3。团队开始大规模扩展数据来源：Reddit链接、英文维基百科、Common Crawl数据仓库、GitHub完整代码库，以及各种博客、论坛、书籍……互联网上无穷的海量文本，包含人类文明的光辉与智慧，连同最阴暗、最疯狂的暴力仇恨与色情，被一股脑地强行塞进GPT的大脑中。

震惊技术圈

2020年6月，GPT-3发布并通过API供开发者调用。它可以生成散文、剧本和代码，并展现出前所未有的灵活性。更令人惊讶的是一种新现象——少样本学习：只需提供几个示例，无需微调，模型就能理解新任务并开始执行。

杨立坤并不看好大语言模型的路线

GPT-3在全球科技界掀起涟漪。谷歌研究人员意识到OpenAI正利用谷歌发明的架构建立领先优势；Meta的杨立坤并不看好大语言模型路线；在中国，包括阿里巴巴、华为、百度在内的科技公司当时仍只把大语言模型视为一个"有点意思的研究方向"。

对齐的代价：AI产业链的阴暗面

未驯化的野兽

刚训练出来的大语言模型更像一坨未经驯化的野兽。因为消化了互联网上的海量黑暗数据，模型会随机生成触目惊心的内容——性虐待、恐怖主义、犯罪教程、谋杀教唆。

达里奥·阿莫代伊曾一度阻挠GPT-3 API的发布，并与应用部门爆发了无休无止的争吵。然而萨姆·奥特曼需要尽快向微软证明技术实力。2020年底，阿莫代伊与十几名员工离开OpenAI，于2021年5月正式成立Anthropic。

肯尼亚工人的心理创伤

OpenAI开始重点投入对齐工作，包括开发自动化内容过滤系统和人类反馈强化学习（RLHF）。这些工作需要对模型生成的有害文本逐条人工标注和排序。项目最终被外包到了非洲肯尼亚。

每标注一条就可以多赚几分钱

据《时代》杂志报道，每名肯尼亚工人时薪不到两美元，每天需要审查大量涉及自残、乱伦、暴力、仇恨的模型输出。华盛顿大学的研究表明，在这一群体中PTSD概率约为15.4%，抑郁症状比例为30.8%，酒精滥用比例高达38.5%。

为了得到一个温柔礼貌的大语言模型，真实的人类被迫用肉眼和心理创伤，一行行清洗人类文明最肮脏的排泄物。

ChatGPT：一场意外的爆炸

仓促的发布

2022年秋天，OpenAI推进代号为"超级助手"的项目。团队最初计划等GPT-4对齐完成后再推出聊天产品，但因Anthropic可能抢先发布聊天机器人，管理层决定先用能力弱得多的GPT-3.5做一个聊天版本进行市场占位。直到发布前夜，这个产品才有了名字——ChatGPT。

在OpenAI内部，几乎没人看好这次发布。销售团队被告知"不会对销售有任何影响"，基础设施团队被告知为十万名用户配备服务器"尽管可能不需要那么多"。

所有人都错了

11月30日上午11点38分，奥特曼在X上发布了仅由九个单词组成的推文并附带一条链接。流量从全球席卷而来，以一种反常识的速度撕裂整个系统。一位OpenAI工程师在NeurIPS派对上对同事说："不行，所有的GPU都在融化，所有的东西都在崩溃。"

发布后五天，ChatGPT用户突破一百万；两个月后用户数量达一亿，成为有史以来增长最快的产品。多年前嘲讽GPT-1的马斯克发布推文："很多人陷入了一个'见鬼，这太疯狂了'的ChatGPT循环。"

一夜之间，ChatGPT把OpenAI推上了神坛。谷歌拉响最高级别红色警报，微软的纳德拉看着飙升的数据露出微笑，大洋彼岸的中国实验室和初创公司彻夜未眠。所有的算力、资本与野心在同一时刻全部转向了同一个方向。

结语

从2018年被马斯克嘲讽为"垃圾"的GPT-1，到2022年末席卷全球的ChatGPT，这条路线的成功验证了伊利亚的核心信念：规模即智能。Scaling Law从一个直觉变成了定律，从定律变成了信仰，最终点燃了人类历史上最昂贵、最残酷也最疯狂的科技竞赛。

但这场革命的背后，交织着远见与贪婪、理想与妥协、技术突破与人道代价。它提醒我们，每一个看似光鲜的AI产品背后，都有无数看不见的代价正在被支付。