Skip to main content
QUICK REVIEW

[論文レビュー] Weighted Transformer Network for Machine Translation

Karim Ahmed, Nitish Shirish Keskar|arXiv (Cornell University)|Nov 6, 2017
Natural Language Processing Techniques参考文献 31被引用数 134
ひとこと要約

Weighted Transformer は multi-head attention を学習可能な自己注意ブランチに置換し、BLEUスコアを向上させ、ベースラインの Transformer より15〜40%速く収束します。

ABSTRACT

State-of-the-art results on neural machine translation often use attentional sequence-to-sequence models with some form of convolution or recursion. Vaswani et al. (2017) propose a new architecture that avoids recurrence and convolution completely. Instead, it uses only self-attention and feed-forward layers. While the proposed architecture achieves state-of-the-art results on several machine translation tasks, it requires a large number of parameters and training iterations to converge. We propose Weighted Transformer, a Transformer with modified attention layers, that not only outperforms the baseline network in BLEU score but also converges 15-40% faster. Specifically, we replace the multi-head attention by multiple self-attention branches that the model learns to combine during the training process. Our model improves the state-of-the-art performance by 0.5 BLEU points on the WMT 2014 English-to-German translation task and by 0.4 on the English-to-French translation task.

研究の動機と目的

  • 性能を犠牲にせず、TransformerベースのNMTにおける訓練時間とパラメータの非効率性を低減する動機付け。
  • multi-head attention を置換するためのブランチ型自己注意機構を提案する。
  • WMT 2014 EN-DE および EN-FR データセットでBLEUスコアの向上を示し、正則化効果を分析する。

提案手法

  • Transformer の multi-head attention を、各ブランチが Attention(QW_i^Q, KW_i^K, VW_i^V) と学習された射影 ̄{head}_i を計算するブランチ型自己注意に置き換える;
  • ブランチ出力を ̄{head}_i = head_i W^{O_i} ̄{?}/, とし、ブランチ間で総和が1になるよう学習された重み  および  を用いる;
  • ブランチを BranchedAttention(Q,K,V) = sum_{i=1}^M _i FFN(̄{head}_i) の形で集約し、制約として sum_i _i = 1 および sum_i ̄_i = 1 を課す;
  • デコーダーでは位置エンコーディング、層正規化、残差接続、マスキングを保持する;
  • ラベルスムージング、ドロップアウト、およびウォームアップスケジュールを持つ Adam で訓練する;
  • 入力埋め込みを出力層に結合し、長さで文をバッチ化してパディングを減らす。

実験結果

リサーチクエスチョン

  • RQ1学習されたブランチ型自己注意で multi-head attention を置換すると、翻訳品質と訓練効率は向上しますか?
  • RQ2学習されたブランチ重み( ̄,  )は訓練中にどのように変化し、ブランチ間の正規化や相関分離を示唆しますか?
  • RQ3ブランチ数やその他のハイパーパラメータがBLEUスコアと収束速度に与える影響は何ですか?
  • RQ4Weighted Transformer はベースライン Transformer と比較して、言語ペアやモデルサイズを問わず頑健ですか?

主な発見

  • Weighted Transformer は EN-DE および EN-FR において、小型および大型の構成で Transformer より高い BLEU を達成している(例: 小型: EN-DE 28.4 vs 27.3; EN-FR 38.9 vs 38.1)。
  • 小型 Weighted Transformer は、Transformer のパラメータ数を大幅に削減しつつ、大型 Transformer に近づく、または上回る性能を達成(例: Transformer パラメータの 30% の小型 Weighted Transformer が同等の性能が示す)。
  • 訓練はベースラインの Transformer より15〜40%速く収束する。
  • 学習されたブランチ重みは、いくつかのブランチが優先され、他のブランチが時間とともに寄与することを示しており、デコレーションと正規化効果を示唆する。
  • テスト時の重みをランダム化または一様にすると性能が低下し、学習済み重みが良い結果にとって重要であることを示している。
  • ハードトップ-k選択によるゲーティングは提案された連続重み付け方式より劣っており、この設定ではスパースゲーティングの利点は限られていることを示唆する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。