QUICK REVIEW

[论文解读] Depth-Adaptive Transformer

Maha Elbayad, Jiatao Gu|arXiv (Cornell University)|Oct 22, 2019

Neural Networks and Applications参考文献 18被引用 61

一句话总结

本研究在基于 Transformer 的序列到序列模型中引入自适应解码深度，允许在中间解码器层进行预测并学习何时退出，以在速度与准确性之间取得平衡。它在翻译任务上实现了显著的加速，同时几乎不损失质量。

ABSTRACT

State of the art sequence-to-sequence models for large scale tasks perform a fixed number of computations for each input sequence regardless of whether it is easy or hard to process. In this paper, we train Transformer models which can make output predictions at different stages of the network and we investigate different ways to predict how much computation is required for a particular sequence. Unlike dynamic computation in Universal Transformers, which applies the same set of layers iteratively, we apply different layers at every step to adjust both the amount of computation as well as the model capacity. On IWSLT German-English translation our approach matches the accuracy of a well tuned baseline Transformer while using less than a quarter of the decoder layers.

研究动机与目标

通过实现深度自适应解码来推动减少 seq2seq 模型中的固定计算。
开发机制以对每个序列或每个标记预测部署深度。
探究训练方案（对齐 vs 混合）以在 Transformer 中实现稳定的动态计算。
探索多种退出分类器和训练目标以优化速度-准确性权衡。
在 IWSLT 和 WMT 翻译基准上证明有效性。

提出的方法

将退出分类器附加到每个解码块的输出，以便在多种深度下进行预测。
使用对齐或混合训练来处理使用提前退出时训练与推理之间的不匹配。
建模序列或标记特定深度的退出概率 q_t(n)，并针对基于退出的 oracle 进行训练。
通过一个标量 α 将解码损失与退出损失结合，以控制速度-准确性权衡。
在序列特定深度（多项式和几何型退出）和标记特定深度（多项式和几何型退出）上进行尝试。
在 IWSLT’14 德英和 WMT’14 英法使用标准 Transformer 基线进行对比评估。

实验结果

研究问题

RQ1Transformer 解码器是否在不重新训练整个模型的情况下就能在中间层发出输出？
RQ2哪些深度预测机制在神经机器翻译中能实现最佳的速度-准确性权衡？
RQ3对齐与混合训练方案如何影响动态深度模型的性能与稳定性？
RQ4哪些退出分类器设计（多项式 vs 几何型）和 oracle 指导能优化解码效率？
RQ5深度自适应方法能否从小规模（IWSLT）扩展到大规模（WMT）翻译任务？

主要发现

模型	n=1	n=2	n=3	n=4	n=5	n=6	平均 BLEU
基线模型	-	34.2	35.3	35.6	35.7	35.6	35.4
对齐（ω=1）	35.5	34.1	35.5	35.8	36.1	36.1	35.6
混合 M=1	34.1	32.9	34.3	34.5	34.5	34.6	34.5
混合 M=3	35.1	33.9	35.2	35.4	35.5	35.5	35.2
混合 M=6	35.3	34.2	35.4	35.8	35.9	35.8	35.5

自适应深度在 IWSLT-De→En 任务上，使用不到三层解码块即可达到六层 Transformer 的准确度。
对齐训练在固定退出和随机退出情景下均优于混合训练，且计算效率高。
使用几何型退出的标记特定深度与基于正确性的 oracle 提供强劲的速度-准确性权衡，接近或达到基线 BLEU，同样在更少的块数下实现。
在 WMT’14 EN→FR 任务上，自适应深度方法在解码块减少 40-60% 的情况下获得接近最佳基线的 BLEU，但提升较小任务的收益更有限。
阈值置信退出可以在达到完整模型准确度的同时实现显著加速，但在大词汇表上每标记分类器的开销较高。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。