QUICK REVIEW

[論文レビュー] Learning Deep Transformer Models for Machine Translation

Qiang Wang, Bei Li|arXiv (Cornell University)|Jun 5, 2019

Natural Language Processing Techniques参考文献 35被引用数 96

ひとこと要約

本論文は、真に深い Transformer エンコーダが pre-norm アーキテクチャと層の動的線形結合 (DLCL) を用いることで Transformer-Big を上回り、より小型で高速なまま最大 0.4–2.4 BLEU の改善を達成することを示している。

ABSTRACT

Transformer is the state-of-the-art model in recent machine translation evaluations. Two strands of research are promising to improve models of this kind: the first uses wide networks (a.k.a. Transformer-Big) and has been the de facto standard for the development of the Transformer system, and the other uses deeper language representation but faces the difficulty arising from learning deep networks. Here, we continue the line of research on the latter. We claim that a truly deep Transformer model can surpass the Transformer-Big counterpart by 1) proper use of layer normalization and 2) a novel way of passing the combination of previous layers to the next. On WMT'16 English- German, NIST OpenMT'12 Chinese-English and larger WMT'18 Chinese-English tasks, our deep system (30/25-layer encoder) outperforms the shallow Transformer-Big/Base baseline (6-layer encoder) by 0.4-2.4 BLEU points. As another bonus, the deep model is 1.6X smaller in size and 3X faster in training than Transformer-Big.

研究の動機と目的

MT において、より深い Transformer エンコーダが標準の Transformer-Big/Base ベースラインを上回るかを検証する。
非常に深い Transformer エンコーダの訓練を可能にする最適化戦略を特定する。
すべての前の層の情報を再利用して深い表現を改善するメカニズムを開発する。
複数の MT ベンチマーク（En-De、Zh-En-U 変種）で DLCL を用いた深い Transformer を評価する。

提案手法

Transformer の 2 つの残差バリアント（post-norm と pre-norm）と、それらが深層ネットワークに与える影響を検討する。
学習可能な重みを用いてすべての前の層出力を統合する Dynamic Linear Combination of Layers (DLCL) を導入する。
pre-norm DLCL を用いた非常に深いエンコーダ（最大 30 層）を訓練し、Transformer-Big/Base および post-norm バリアントと比較する。
レイヤー正規化の重要性と学習可能な融合重みの重要性を評価するアブレーション研究を提供する。
WMT En-De、NIST Zh-En-Small、WMT Zh-En-Large に対して BPE 語彙とビームサーチを用いて評価する。
訓練/推論の効率とモデルサイズの比較を報告する。

実験結果

リサーチクエスチョン

RQ1適切に最適化すれば、より深い Transformer エンコーダは Transformer-Big を上回ることができるか？
RQ2pre-norm（対して post-norm）によって非常に深い Transformer の最適化と訓練が促進されるか？
RQ3DLCL は標準的な残差接続よりも情報フローを改善し、初期の層の利用を促進するか？
RQ4MT タスク全体で、訓練コスト、モデルサイズ、推論速度の観点から深さのトレードオフはどうなるか？

主な発見

pre-norm と DLCL を備えた深いエンコーダは Transformer-Base より 0.4–2.4 BLEU の改善をもたらし、いくつかのタスクで Transformer-Big を 0.4–0.6 BLEU 上回ることができる。
pre-norm を用いた深いモデルは最適化が容易で、post-norm バリアントより深い（例: 20-30 層のエンコーダ）まで訓練できる。
DLCL はすべての前段レイヤ表現を動的かつエンドツーエンドで重み付けすることを可能にし、固定的な残差接続や密結合スキームよりも優れている。
DLCL ベースのモデルは Transformer-Big よりパラメータを 1.6 倍削減し、訓練を 3 倍高速化し、いくつかの構成では推論も約 10% 高速。
En-De、Zh-En-Small、Zh-En-Large の各データセットで、深い DLCL モデルはサイズの異なるデータセットに対して Transformer-Big と同等またはそれを上回る性能を達成する。
アブレーションにより、レイヤー正規化を除去するか固定ウェイトを使用すると性能が低下することが示され、学習可能で正規化されたレイヤー融合の重要性が浮き彫りになる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。