Hyper-Connections：残差连接十年来首次重大改进

概述

残差连接（Residual Connection）自2016年何恺明提出以来，已经整整十年没有发生过实质性的改变。尽管期间有过各种变体尝试，但实验证明最好的效果依然是最原始的版本。2024年9月，字节跳动发表了一篇名为Hyper-Connections的论文，提出了对残差连接的重要改进方案，在相同算力下取得了显著更好的训练效果。

字节跳动近年来在AI领域发表了大量有影响力的论文，在国内AI研究实力方面可以说不逊于腾讯，甚至在某些方面更胜一筹。这篇论文虽然看起来原理简单，但其潜在影响力不容小觑。

为什么需要改进残差连接

小模型时代：一条连接足够

在模型规模较小的时代，残差连接的一条跳跃连接就足以解决梯度消失问题，并让模型能够训练得更深。这是残差网络最初被设计的核心目的，也确实完美地完成了使命。

大模型时代：单连接的局限性

然而，在当前模型规模越来越大、层数越来越深的情况下，传统的单条残差连接已经暴露出不足。深层网络中，较深的层之间仍然会出现梯度消失的问题，导致这些层实际上没有学到太多有用的信息。这就是Hyper-Connections要解决的核心问题。

Hyper-Connections的核心思想

从一条连接扩展到多条连接

论文的核心思想非常直观：既然模型变大了，一条连接不够用，那就把连接扩充为多条。以两条连接为例，原来的输入H变成了H1和H2两个分支。

具体实现方式如下：

输入阶段：将原始输入H0进行简单复制，生成两份作为两条连接的初始值
融合输入：H1和H2通过加权和的方式融合后，输入到网络层中
分配输出：网络层的输出通过可学习的参数，分别融合回两条连接中
连接交互：两条连接之间并非完全独立，而是在每一层都进行加权融合

在Transformer中的应用

在Transformer架构中，原来的流程是层层叠加：注意力层→全连接层→注意力层。Hyper-Connections在此基础上扩充了连接通道。每一层之间，两条连接都会进行融合，输入和输出都用可学习的权重来控制各自的贡献比例。

与原始残差连接的关键区别

原始残差连接中，跳跃连接的权重是固定的（比如各0.5或直接相加），没有可训练的参数。而Hyper-Connections引入了可学习的参数，让模型自己决定每条连接的权重分配，这带来了更大的灵活性。

实验效果与局限性

令人印象深刻的实验结果

在同样训练500B token的条件下，Hyper-Connections的损失值可以降得更低。在各个数据集上的表现都显著优于传统残差连接。这意味着：

相同算力下，模型效果更好
达到相同效果，所需算力更少
数据不变、训练流程不变，只需替换连接方式即可获得提升

为什么主流大模型还没有广泛采用

尽管效果看起来很好，但主流大模型训练并未广泛采用这一方法。原因可能有以下几点：

模型规模验证不足：论文中验证的模型规模仅为1B到7B，这在当前动辄百亿、千亿参数的大模型面前实在太小。小模型上有效不代表大模型上同样有效。

训练数据量不足：论文仅使用了500B token进行训练，而当前主流大模型的训练数据量已经达到十几T甚至六十T。LLaMA 1就已经用了1.4T，LLaMA 2更是2T。

训练稳定性存疑：从论文中的训练曲线可以看到，传统残差连接的收敛非常稳定，没有明显的loss spike。但Hyper-Connections的训练曲线存在较大的波动和尖刺，这在大规模训练中可能是致命的问题。

长期训练效果未知：论文中展示了一个有趣的现象——其他残差连接改进方案在训练前期效果优于原始版本，但到了训练后期反而不如原始版本。Hyper-Connections是否也存在类似问题，需要更大规模的数据来验证。

未来展望

你可能没注意到，据了解DeepSeek V4实际上使用了Hyper-Connections的一个改进版本，并且取得了不错的效果。这说明这一方向是有前景的。

如果Hyper-Connections能够在百亿甚至千亿参数的模型上得到验证，那将是残差连接十年来最重大的突破。原始的残差连接可能会逐渐被这种多连接方案所替代，成为新的主流架构组件。

总结

Hyper-Connections的核心贡献可以用一句话概括：将残差网络的单条跳跃连接扩展为多条可学习的连接通路，并通过参数化的融合机制实现连接间的信息交互。方法本身并不复杂，但其潜在的影响力取决于能否在更大规模上得到验证。这篇37页的论文包含了大量数学证明和推导，但核心思想确实简洁优雅。

概述

为什么需要改进残差连接

小模型时代：一条连接足够

大模型时代：单连接的局限性

Hyper-Connections的核心思想

从一条连接扩展到多条连接

论文的核心思想非常直观：既然模型变大了，一条连接不够用，那就把连接扩充为多条。以两条连接为例，原来的输入H变成了H1和H2两个分支。

具体实现方式如下：

输入阶段：将原始输入H0进行简单复制，生成两份作为两条连接的初始值
融合输入：H1和H2通过加权和的方式融合后，输入到网络层中
分配输出：网络层的输出通过可学习的参数，分别融合回两条连接中
连接交互：两条连接之间并非完全独立，而是在每一层都进行加权融合

在Transformer中的应用

与原始残差连接的关键区别

实验效果与局限性

令人印象深刻的实验结果

在同样训练500B token的条件下，Hyper-Connections的损失值可以降得更低。在各个数据集上的表现都显著优于传统残差连接。这意味着：

相同算力下，模型效果更好
达到相同效果，所需算力更少
数据不变、训练流程不变，只需替换连接方式即可获得提升

为什么主流大模型还没有广泛采用

尽管效果看起来很好，但主流大模型训练并未广泛采用这一方法。原因可能有以下几点：

训练数据量不足：论文仅使用了500B token进行训练，而当前主流大模型的训练数据量已经达到十几T甚至六十T。LLaMA 1就已经用了1.4T，LLaMA 2更是2T。

未来展望

你可能没注意到，据了解DeepSeek V4实际上使用了Hyper-Connections的一个改进版本，并且取得了不错的效果。这说明这一方向是有前景的。

Hyper-Connections：残差连接十年来首次重大改进

概述

为什么需要改进残差连接

小模型时代：一条连接足够

大模型时代：单连接的局限性

Hyper-Connections的核心思想

从一条连接扩展到多条连接

在Transformer中的应用

与原始残差连接的关键区别

实验效果与局限性

令人印象深刻的实验结果

为什么主流大模型还没有广泛采用

未来展望

总结

相关推荐

Claude Code 4个必改设置，开发效率直接翻倍

RTK终端输出压缩工具：Claude Code省下80%Token消耗

笨豆：16岁独立拍纪录片，全网播放破亿的10后UP主

Hyper-Connections：残差连接十年来首次重大改进

概述

为什么需要改进残差连接

小模型时代：一条连接足够

大模型时代：单连接的局限性

Hyper-Connections的核心思想

从一条连接扩展到多条连接

在Transformer中的应用

与原始残差连接的关键区别

实验效果与局限性

令人印象深刻的实验结果

为什么主流大模型还没有广泛采用

未来展望

总结

相关推荐

Claude Code 4个必改设置，开发效率直接翻倍

RTK终端输出压缩工具：Claude Code省下80%Token消耗

笨豆：16岁独立拍纪录片，全网播放破亿的10后UP主