共 4 篇相关文章
Hyper-Connections:残差连接十年来首次重大改进
深入解析字节跳动提出的Hyper-Connections技术,将残差连接从单条扩展为多条可学习连接通路,在相同算力下显著提升模型训练效果。本文详解其核心原理、实验结果及当前局限性。
深度解读用文字接龙的视角理解Transformer本质。将复杂的语言生成任务拆解为Embedding、Transformer Block、概率输出三大模块,帮助深度学习初学者快速建立直觉。
深度解读深入解析DeepSeek V4核心技术架构,包括混合压缩注意力机制、流形约束超链接和MUON优化器三大创新,详解其如何将推理成本降低10倍,实现百万Token长上下文处理,以及MIT开源协议带来的生态价值。
深度解读Jeff Dean回顾Google翻译20年三次技术跃迁:2006年万亿token语言模型验证Scaling Law,2016年Seq2Seq+TPU实现神经网络翻译,如今引入Gemini大模型。一部浓缩的现代AI发展史。