Hyper-Connections:残差连接十年来首次重大改进
Hyper-Connections:残差连接十年来首次重大改进
概述
残差连接(Residual Connection)自2016年何恺明提出以来,已经整整十年没有发生过实质性的改变。尽管期间有过各种变体尝试,但实验证明最好的效果依然是最原始的版本。2024年9月,字节跳动发表了一篇名为Hyper-Connections的论文,提出了对残差连接的重要改进方案,在相同算力下取得了显著更好的训练效果。
字节跳动近年来在AI领域发表了大量有影响力的论文,在国内AI研究实力方面可以说不逊于腾讯,甚至在某些方面更胜一筹。这篇论文虽然看起来原理简单,但其潜在影响力不容小觑。
为什么需要改进残差连接
小模型时代:一条连接足够
在模型规模较小的时代,残差连接的一条跳跃连接就足以解决梯度消失问题,并让模型能够训练得更深。这是残差网络最初被设计的核心目的,也确实完美地完成了使命。
大模型时代:单连接的局限性
然而,在当前模型规模越来越大、层数越来越深的情况下,传统的单条残差连接已经暴露出不足。深层网络中,较深的层之间仍然会出现梯度消失的问题,导致这些层实际上没有学到太多有用的信息。这就是Hyper-Connections要解决的核心问题。
Hyper-Connections的核心思想
从一条连接扩展到多条连接
论文的核心思想非常直观:既然模型变大了,一条连接不够用,那就把连接扩充为多条。以两条连接为例,原来的输入H变成了H1和H2两个分支。
具体实现方式如下:
- 输入阶段:将原始输入H0进行简单复制,生成两份作为两条连接的初始值
- 融合输入:H1和H2通过加权和的方式融合后,输入到网络层中
- 分配输出:网络层的输出通过可学习的参数,分别融合回两条连接中
- 连接交互:两条连接之间并非完全独立,而是在每一层都进行加权融合
在Transformer中的应用
在Transformer架构中,原来的流程是层层叠加:注意力层→全连接层→注意力层。Hyper-Connections在此基础上扩充了连接通道。每一层之间,两条连接都会进行融合,输入和输出都用可学习的权重来控制各自的贡献比例。
与原始残差连接的关键区别
原始残差连接中,跳跃连接的权重是固定的(比如各0.5或直接相加),没有可训练的参数。而Hyper-Connections引入了可学习的参数,让模型自己决定每条连接的权重分配,这带来了更大的灵活性。
实验效果与局限性
令人印象深刻的实验结果
在同样训练500B token的条件下,Hyper-Connections的损失值可以降得更低。在各个数据集上的表现都显著优于传统残差连接。这意味着:
- 相同算力下,模型效果更好
- 达到相同效果,所需算力更少
- 数据不变、训练流程不变,只需替换连接方式即可获得提升
为什么主流大模型还没有广泛采用
尽管效果看起来很好,但主流大模型训练并未广泛采用这一方法。原因可能有以下几点:
模型规模验证不足:论文中验证的模型规模仅为1B到7B,这在当前动辄百亿、千亿参数的大模型面前实在太小。小模型上有效不代表大模型上同样有效。
训练数据量不足:论文仅使用了500B token进行训练,而当前主流大模型的训练数据量已经达到十几T甚至六十T。LLaMA 1就已经用了1.4T,LLaMA 2更是2T。
训练稳定性存疑:从论文中的训练曲线可以看到,传统残差连接的收敛非常稳定,没有明显的loss spike。但Hyper-Connections的训练曲线存在较大的波动和尖刺,这在大规模训练中可能是致命的问题。
长期训练效果未知:论文中展示了一个有趣的现象——其他残差连接改进方案在训练前期效果优于原始版本,但到了训练后期反而不如原始版本。Hyper-Connections是否也存在类似问题,需要更大规模的数据来验证。
未来展望
你可能没注意到,据了解DeepSeek V4实际上使用了Hyper-Connections的一个改进版本,并且取得了不错的效果。这说明这一方向是有前景的。
如果Hyper-Connections能够在百亿甚至千亿参数的模型上得到验证,那将是残差连接十年来最重大的突破。原始的残差连接可能会逐渐被这种多连接方案所替代,成为新的主流架构组件。
总结
Hyper-Connections的核心贡献可以用一句话概括:将残差网络的单条跳跃连接扩展为多条可学习的连接通路,并通过参数化的融合机制实现连接间的信息交互。方法本身并不复杂,但其潜在的影响力取决于能否在更大规模上得到验证。这篇37页的论文包含了大量数学证明和推导,但核心思想确实简洁优雅。
相关推荐
Claude Code 4个必改设置,开发效率直接翻倍
Claude Code 4个必改设置,开发效率直接翻倍
分享Claude Code最值得修改的4个设置:权限模式绕过、聊天记录永久保留、MCP合并规则理解、全局Skill精简到7个。改完告别确认框骚扰,节省6%上下文窗口,开发体验立刻提升。
RTK终端输出压缩工具:Claude Code省下80%Token消耗
RTK终端输出压缩工具:Claude Code省下80%Token消耗
RTK是一款用Rust编写的开源终端输出压缩工具,专为Claude Code设计。通过拦截和压缩git、npm等命令输出,将Token消耗从11.8万降至2.39万,节省约80%。免费、离线、两分钟安装即用。
笨豆:16岁独立拍纪录片,全网播放破亿的10后UP主
笨豆:16岁独立拍纪录片,全网播放破亿的10后UP主
B站UP主笨豆,16岁高一学生,从四年级开始做视频,独立完成印度、蒙古国等人文纪录片拍摄,全网粉丝超百万、播放量破亿。深入了解她的纸上剪辑法、一人纪录片工作流程及创作心路历程。