[論文レビュー] Universal Transformers
Universal Transformerは並列-in-時間の再帰と各位置での動的停止を追加することによりTransformerを一般化し、いくつかのアルゴリズム的および言語タスクで最先端の結果を達成し、一般化と表現力の向上を示す。
Recurrent neural networks (RNNs) sequentially process data by updating their state with each new data point, and have long been the de facto choice for sequence modeling tasks. However, their inherently sequential computation makes them slow to train. Feed-forward and convolutional architectures have recently been shown to achieve superior results on some sequence modeling tasks such as machine translation, with the added advantage that they concurrently process all inputs in the sequence, leading to easy parallelization and faster training times. Despite these successes, however, popular feed-forward sequence models like the Transformer fail to generalize in many simple tasks that recurrent models handle with ease, e.g. copying strings or even simple logical inference when the string or formula lengths exceed those observed at training time. We propose the Universal Transformer (UT), a parallel-in-time self-attentive recurrent sequence model which can be cast as a generalization of the Transformer model and which addresses these issues. UTs combine the parallelizability and global receptive field of feed-forward sequence models like the Transformer with the recurrent inductive bias of RNNs. We also add a dynamic per-position halting mechanism and find that it improves accuracy on several tasks. In contrast to the standard Transformer, under certain assumptions, UTs can be shown to be Turing-complete. Our experiments show that UTs outperform standard Transformers on a wide range of algorithmic and language understanding tasks, including the challenging LAMBADA language modeling task where UTs achieve a new state of the art, and machine translation where UTs achieve a 0.9 BLEU improvement over Transformers on the WMT14 En-De dataset.
研究の動機と目的
- sequence modelingのために並列処理と再帰的帰納バイアスを組み合わせるモデルの必要性を動機づける。
- Universal Transformer(UT)を、位置ごとに並列に深さを洗練させるTransformerの一般化として導入する。
- UTが特定の仮定のもとでチューリング完備になり得ることを示し、様々なタスクでの経験的性能を評価する。
- 動的な各位置の停止が複数のタスクで精度を改善し、性能と計算に及ぼす影響を分析する。
提案手法
- UTは自己注意を備えたエンコーダとデコーダを用い、位置と時間ステップを横断して共有される再帰的遷移関数を持つ。
- 各再帰ステップでUTは並列に表現を改訂するためにマルチヘッド自己注意を適用し、その後遷移関数(深さ方向の分離可能畳み込みまたは位置ごとのフィードフォワード)と残差接続を適用する。
- 原理的には深さは無限に広がり得、ACT風の停止による動的計算深度を可能にする。
- 位置情報と時刻エンコーディングを深さ各ステップでの処理を知らせるために追加する。
- モデルはデコーダの教師強制を用いたTransformer風のエンコーダ–デコーダ設定で訓練される。
- UTは重みを結合した深さ展開されたTransformerブロックとして見ることができ、シーケンス長ではなく深さにわたる再起を可能にする。
実験結果
リサーチクエスチョン
- RQ1自己注意と共有遷移関数を用いた並列-in-time再帰は標準のTransformerを超えた一般化と表現力を改善できるか。
- RQ2動的な各位置停止(適応計算時間)はアルゴリズム的および言語タスクの性能を改善するか。
- RQ3UTはTransformerと比較して条件付きで計算的に普遍性(チューリング完備)を持つか。
- RQ4UTは言語理解と大規模タスク(機械翻訳など)で標準的なTransformerやLSTMと比べてどのように性能を示すか。
- RQ5長距離推論や構成的一般化を要するタスクにおいて再帰深さはどのような影響を与えるか。
主な発見
- UTは複数のアルゴリズム的および言語タスクで標準的なTransformerやLSTMを上回る。
- LAMBADA言語モデリングでUTは最先端の結果を達成する。
- WMT14英独翻訳では、完全連結遷移とACTなしのUTは同程度のサイズのTransformerよりBLEUを改善する。
- 動的停止(ACT)はいくつかの小規模タスクで精度を改善し、必要な箇所でのより深い各-symbol処理を示し、正則化として機能する。
- UTは適応深さの下で学習でき、難しい入力にはより多くのステップを、容易な入力には少ないステップを用いながら、シーケンス位置間での並列計算を維持する。
- UTの枠組みは固定深度のTransformerより理論的に強力であり、特定のパラメータ化の下でニューラルGPUやNeural Turing Machinesをエミュレートできる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。