[論文レビュー] Weighted Transformer Network for Machine Translation
Weighted Transformer は multi-head attention を学習可能な自己注意ブランチに置換し、BLEUスコアを向上させ、ベースラインの Transformer より15〜40%速く収束します。
State-of-the-art results on neural machine translation often use attentional sequence-to-sequence models with some form of convolution or recursion. Vaswani et al. (2017) propose a new architecture that avoids recurrence and convolution completely. Instead, it uses only self-attention and feed-forward layers. While the proposed architecture achieves state-of-the-art results on several machine translation tasks, it requires a large number of parameters and training iterations to converge. We propose Weighted Transformer, a Transformer with modified attention layers, that not only outperforms the baseline network in BLEU score but also converges 15-40% faster. Specifically, we replace the multi-head attention by multiple self-attention branches that the model learns to combine during the training process. Our model improves the state-of-the-art performance by 0.5 BLEU points on the WMT 2014 English-to-German translation task and by 0.4 on the English-to-French translation task.
研究の動機と目的
- 性能を犠牲にせず、TransformerベースのNMTにおける訓練時間とパラメータの非効率性を低減する動機付け。
- multi-head attention を置換するためのブランチ型自己注意機構を提案する。
- WMT 2014 EN-DE および EN-FR データセットでBLEUスコアの向上を示し、正則化効果を分析する。
提案手法
- Transformer の multi-head attention を、各ブランチが Attention(QW_i^Q, KW_i^K, VW_i^V) と学習された射影 ̄{head}_i を計算するブランチ型自己注意に置き換える;
- ブランチ出力を ̄{head}_i = head_i W^{O_i} ̄{?}/, とし、ブランチ間で総和が1になるよう学習された重み および を用いる;
- ブランチを BranchedAttention(Q,K,V) = sum_{i=1}^M _i FFN(̄{head}_i) の形で集約し、制約として sum_i _i = 1 および sum_i ̄_i = 1 を課す;
- デコーダーでは位置エンコーディング、層正規化、残差接続、マスキングを保持する;
- ラベルスムージング、ドロップアウト、およびウォームアップスケジュールを持つ Adam で訓練する;
- 入力埋め込みを出力層に結合し、長さで文をバッチ化してパディングを減らす。
実験結果
リサーチクエスチョン
- RQ1学習されたブランチ型自己注意で multi-head attention を置換すると、翻訳品質と訓練効率は向上しますか?
- RQ2学習されたブランチ重み( ̄, )は訓練中にどのように変化し、ブランチ間の正規化や相関分離を示唆しますか?
- RQ3ブランチ数やその他のハイパーパラメータがBLEUスコアと収束速度に与える影響は何ですか?
- RQ4Weighted Transformer はベースライン Transformer と比較して、言語ペアやモデルサイズを問わず頑健ですか?
主な発見
- Weighted Transformer は EN-DE および EN-FR において、小型および大型の構成で Transformer より高い BLEU を達成している(例: 小型: EN-DE 28.4 vs 27.3; EN-FR 38.9 vs 38.1)。
- 小型 Weighted Transformer は、Transformer のパラメータ数を大幅に削減しつつ、大型 Transformer に近づく、または上回る性能を達成(例: Transformer パラメータの 30% の小型 Weighted Transformer が同等の性能が示す)。
- 訓練はベースラインの Transformer より15〜40%速く収束する。
- 学習されたブランチ重みは、いくつかのブランチが優先され、他のブランチが時間とともに寄与することを示しており、デコレーションと正規化効果を示唆する。
- テスト時の重みをランダム化または一様にすると性能が低下し、学習済み重みが良い結果にとって重要であることを示している。
- ハードトップ-k選択によるゲーティングは提案された連続重み付け方式より劣っており、この設定ではスパースゲーティングの利点は限られていることを示唆する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。