QUICK REVIEW

[论文解读] Deep Transformers with Latent Depth

Xian Li, Asa Cooper Stickland|arXiv (Cornell University)|Jan 1, 2020

Natural Language Processing Techniques被引用 10

一句话总结

本文提出一种概率框架，通过学习后验分布来选择网络层，实现对深度Transformer模型（最高达100层）的稳定训练。该方法扩展至多语言翻译任务，通过为每对语言动态选择层，显著提升了多种语言对之间的翻译性能。

ABSTRACT

The Transformer model has achieved state-of-the-art performance in many sequence modeling tasks. However, how to leverage model capacity with large or variable depths is still an open challenge. We present a probabilistic framework to automatically learn which layer(s) to use by learning the posterior distributions of layer selection. As an extension of this framework, we propose a novel method to train one shared Transformer network for multilingual machine translation with different layer selection posteriors for each language pair. The proposed method alleviates the vanishing gradient issue and enables stable training of deep Transformers (e.g. 100 layers). We evaluate on WMT English-German machine translation and masked language modeling tasks, where our method outperforms existing approaches for training deeper Transformers. Experiments on multilingual machine translation demonstrate that this approach can effectively leverage increased model capacity and bring universal improvement for both many-to-one and one-to-many translation with diverse language pairs.

研究动机与目标

解决因梯度消失和优化不稳定导致的极深Transformer（如100层）训练难题。
开发一种方法，基于对层选择的后验分布学习，自动确定每种输入应使用的层。
使单个共享的Transformer模型能够支持多个语言对的多语言翻译任务，且每对语言拥有独立的层选择策略。
在不增加推理成本或损害训练稳定性的前提下，提升序列建模任务中的模型容量利用率。

提出的方法

提出一种概率框架，使模型在训练过程中学习层深度的后验分布。
通过从层选择后验分布中进行可微采样，实现通过深度选择机制的端到端反向传播。
将相同架构应用于多语言翻译任务，每对语言拥有独立的层选择后验分布。
采用共享的Transformer主干网络，同时允许每对语言通过学习到的路由机制关注不同的有效深度。
采用类似随机深度的训练策略，结合可学习的路由概率，以稳定深层网络中的梯度。
使用标准目标函数（如翻译任务中的交叉熵）进行训练，同时联合优化层选择与模型参数。

实验结果

研究问题

RQ1概率化层选择机制是否能稳定极深Transformer（如100层）的训练？
RQ2学习语言特定的层选择后验分布是否能提升多语言机器翻译的性能？
RQ3与标准深度Transformer相比，该方法在训练稳定性和收敛性方面表现如何？
RQ4同一共享模型架构是否能通过为每对语言自适应调整深度，在多种语言对上实现更优性能？
RQ5该方法在掩码语言建模和翻译任务上的性能提升程度如何？

主要发现

该方法实现了对高达100层的Transformer模型的稳定训练，克服了深层架构中常见的梯度消失问题。
在WMT英语-德语翻译任务中，所提方法在训练更深Transformer方面优于现有方法。
在多语言机器翻译中，该方法在多对一和一对多翻译设置下均实现了稳定且一致的性能提升。
通过为每对语言学习不同的层选择策略，模型有效利用了增强的模型容量，从而实现更优性能。
该方法在不增加推理复杂度的前提下，实现了对多种语言对的普遍性能提升。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。