QUICK REVIEW

[論文レビュー] Deep Transformers with Latent Depth

Xian Li, Asa Cooper Stickland|arXiv (Cornell University)|Jan 1, 2020

Natural Language Processing Techniques被引用数 10

ひとこと要約

本稿では、事後分布を通じたレイヤー選択の学習により、深層トランスフォーマーを確率的フレームワークで訓練する手法を提案する。これにより、100層に達するネットワークの安定した訓練が可能になる。多言語翻訳へと拡張され、各言語対に対して動的にレイヤーを選択することで、多様な言語対における性能向上が達成される。

ABSTRACT

The Transformer model has achieved state-of-the-art performance in many sequence modeling tasks. However, how to leverage model capacity with large or variable depths is still an open challenge. We present a probabilistic framework to automatically learn which layer(s) to use by learning the posterior distributions of layer selection. As an extension of this framework, we propose a novel method to train one shared Transformer network for multilingual machine translation with different layer selection posteriors for each language pair. The proposed method alleviates the vanishing gradient issue and enables stable training of deep Transformers (e.g. 100 layers). We evaluate on WMT English-German machine translation and masked language modeling tasks, where our method outperforms existing approaches for training deeper Transformers. Experiments on multilingual machine translation demonstrate that this approach can effectively leverage increased model capacity and bring universal improvement for both many-to-one and one-to-many translation with diverse language pairs.

研究の動機と目的

消失勾配や不安定な最適化のため、非常に深いトランスフォーマー（例：100層）を訓練することが困難であるという課題に対処すること。
入力ごとにどのレイヤーを使うかを、レイヤー選択に関する学習済み事後分布に基づいて自動で学習する手法を開発すること。
1つの共有トランスフォーマーが、各言語対に固有のレイヤー選択戦略を用いて、複数の言語対をサポートできるようにすること。
推論コストを増加させず、かつ訓練の安定性を損なわずに、系列モデルタスクにおけるモデル容量の活用を向上させること。

提案手法

訓練中にレイヤー深さに関する事後分布を学習する確率的フレームワークを導入する。
レイヤー選択事後分布からの微分可能サンプリングを用い、深さ選択メカニズムを介したエンドツーエンドの誤差逆伝播を可能にする。
同じアーキテクチャを多言語翻訳に適用し、各言語対に対して別個のレイヤー選択事後分布を設ける。
共有トランスフォーマーバックボーンを採用しつつ、学習されたルーティングにより、各言語対が異なる有効な深さに注目できるようにする。
学習可能なルーティング確率を用いた確率的深さスタイルの訓練を活用し、深層ネットワークにおける勾配の安定化を図る。
翻訳のための標準的目的関数（例：交差エントロピー）を用いてモデルを訓練するが、同時にレイヤー選択とモデルパラメータを共同最適化する。

実験結果

リサーチクエスチョン

RQ1確率的レイヤー選択メカニズムは、非常に深いトランスフォーマー（例：100層）における訓練を安定化させることができるか？
RQ2言語固有のレイヤー選択事後分布を学習することで、多言語機械翻訳の性能が向上するか？
RQ3本手法は、標準的深層トランスフォーマーと比較して、訓練の安定性および収束性において優れているか？
RQ4同じ共有モデルアーキテクチャが、各言語対に応じて深さを適応させることで、多様な言語対において優れた性能を達成できるか？
RQ5本手法は、マスキング言語モデルおよび翻訳タスクにおいて、どの程度性能を向上させるか？

主な発見

本手法により、消失勾配が深刻な問題となる深層アーキテクチャにおいても、100層に達するトランスフォーマーの安定した訓練が可能になった。
WMT英独翻訳において、本手法はより深いトランスフォーマーを訓練する既存の手法を上回る性能を示した。
多言語機械翻訳において、多対一および一対多の両方の翻訳設定で一貫した性能向上が得られた。
各言語対に対して異なるレイヤー選択戦略を学習することで、モデルは容量を効果的に活用し、より良い性能を達成した。
推論複雑度を増加させることなく、多様な言語対にわたり普遍的に性能向上を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。