[论文解读] Lessons on Parameter Sharing across Layers in Transformers
本文为Transformer模型提出了三种参数共享策略——序列、循环和循环(反向)——将参数分配给N层中的M层,而非像通用Transformer那样在所有层之间共享单组参数。该方法在计算成本更低的情况下实现了更高的BLEU分数,在机器翻译、语音识别和语言建模任务中,相较于通用Transformer在相同参数量和训练时间预算下表现更优。
We propose a parameter sharing method for Transformers (Vaswani et al., 2017). The proposed approach relaxes a widely used technique, which shares parameters for one layer with all layers such as Universal Transformers (Dehghani et al., 2019), to increase the efficiency in the computational time. We propose three strategies: Sequence, Cycle, and Cycle (rev) to assign parameters to each layer. Experimental results show that the proposed strategies are efficient in the parameter size and computational time. Moreover, we indicate that the proposed strategies are also effective in the configuration where we use many training data such as the recent WMT competition.
研究动机与目标
- 为解决通用Transformer的低效问题,其在所有层之间共享单组参数,导致因大尺寸权重矩阵而产生高计算成本。
- 探索允许通过更小的单个权重矩阵堆叠更多层的参数共享策略,以提升模型表达能力同时降低计算负载。
- 评估放宽通用Transformer中单层参数共享约束是否能在各种自然语言处理与语音任务中带来更好的性能与效率。
- 在相同参数数量和训练时间预算下,将所提策略与通用Transformer进行对比。
- 评估所提策略在不同Transformer架构(后归一化与前归一化)及任务类型中的有效性。
提出的方法
- 所提方法通过重用M个独立层的参数(1 ≤ M ≤ N),构建一个N层的Transformer编码器-解码器,而非将单一层的参数共享至全部N层。
- 提出三种参数分配策略:序列(将相同参数分配给大小为⌊N/M⌋的连续块)、循环(循环复用M个基础层)和循环(反向)(反向循环复用以改善深层模型中的梯度流动)。
- 该算法初始化M个新层,并通过重用前一层(序列)、循环遍历M个基础层(循环)或采用反向循环模式(循环(反向))来分配后续层,以改善训练动态。
- 该方法在编码器和解码器两端均采用相同的分配逻辑,实现在保持模型深度与表达能力的同时实现高效的参数共享。
- 通过后归一化(Post-LN)和前归一化(Pre-LN)两种Transformer架构进行实验,以评估在不同归一化方案下的泛化能力。
- 在机器翻译(WMT)、自动语音识别和语言建模任务上评估该方法,并与通用Transformer在固定参数数量和训练时间预算下进行对比。
实验结果
研究问题
- RQ1放宽通用Transformer中单层参数共享约束,是否能带来更好的性能与更低的计算成本?
- RQ2所提出的参数共享策略(使用M个独立层而非单一层)是否能在参数数量和训练时间方面提升效率?
- RQ3在机器翻译、语音识别和语言建模任务中,序列、循环和循环(反向)策略与通用Transformer相比表现如何?
- RQ4在相同训练时间预算下,所提方法的性能提升是否依然成立,尤其是在计算效率至关重要的场景中?
- RQ5所提策略在不同Transformer架构(如后归一化与前归一化)中是否均有效?
主要发现
- 在相同参数数量下(M=6, N=12),所提策略的BLEU分数略高于通用Transformer,同时计算时间更短。
- 在相同训练时间预算下(M=6, N=18),所提方法在机器翻译任务中优于通用Transformer,展现出更优的效率。
- 在高资源设置下,包括WMT英德翻译任务,所提策略在通用Transformer基础上实现了持续改进。
- 该方法在多种模态上均表现优异,在自动语音识别和语言建模任务中均优于通用Transformer。
- 循环(反向)策略在深层模型中表现尤为突出,可能得益于反向循环模式带来的更优梯度流动。
- 性能提升在后归一化与前归一化Transformer配置中均被观察到,表明其在不同架构变体中具有广泛适用性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。