[論文レビュー] DropAttention: A Regularization Method for Fully-Connected Self-Attention Networks
DropAttention は Transformers の全結合自己注意に特化したドロップアウトを導入し、注意重みをドロップして共適合を低減し、タスク間の一般化を向上させる。
Variants dropout methods have been designed for the fully-connected layer, convolutional layer and recurrent layer in neural networks, and shown to be effective to avoid overfitting. As an appealing alternative to recurrent and convolutional layers, the fully-connected self-attention layer surprisingly lacks a specific dropout method. This paper explores the possibility of regularizing the attention weights in Transformers to prevent different contextualized feature vectors from co-adaption. Experiments on a wide range of tasks show that DropAttention can improve performance and reduce overfitting.
研究の動機と目的
- Transformers の自己注意に特化したドロップアウト変種の必要性を動機づける。
- 注意重みを正則化するための DropAttention(DropAttention(c) および DropAttention(e))を提案する。
- 注意ドロップアウトにおける連続領域のドロップと正規化リスケーリングの利点を調査する。
- テキスト分類、系列ラベリング、テキスト含意、機械翻訳にわたり DropAttention を評価する。
提案手法
- 自己注意出力を ϑH̃ = f(ΛV) と再定義し、Λ = softmax(QK^T / sqrt(d_k))、V は H から計算される。
- 2 つの DropAttention 変種を導入する。DropAttention(c) は注意行(ベクトルレベル)の列をドロップし、DropAttention(e) は Λ の個々の要素をドロップする。
- DropBlock に触発された連続領域ドロップを追加し、ウィンドウサイズ w とドロップ率 p を用いる。
- ドロップ後に注意重みの総和を 1 に保つための正規化リスケーリングを適用し、学習の安定性を向上させる。
- DropAttention(e) の擬似コードと DropAttention(c) の類推手順を提供する。
- 標準的なドロップアウトと補完的であることを評価するため、複数の NLP タスクで正則化効果を評価する。
実験結果
リサーチクエスチョン
- RQ1DropAttention は全結合自己注意ネットワークの一般化を改善し、過学習を低減するか?
- RQ2DropAttention(c) と DropAttention(e) はタスク間で性能と頑健性の点でどう比較されるか?
- RQ3連続領域をドロップする(ウィンドウサイズ w)ことが注意分布やモデル挙動に与える影響は?
- RQ4注意ドロップアウトにおいて正規化リスケーリングは従来のリスケーリング (1-p) より望ましいか?
- RQ5DropAttention は標準のドロップアウトと併用した場合どう相互作用するか?
主な発見
- DropAttention はテキスト分類、系列ラベリング、テキスト含意、機械翻訳タスクの性能を向上させる。
- 正規化リスケーリングは一般に DropAttention における従来のリスケーリング (1-p) よりも優れている。
- DropAttention(c) が分類タスクでしばしば DropAttention(e) より高い性能を示す。
- 連続領域をより大きな w でドロップし、ドロップ率を高くすると、注意分布のエントロピーとヘッドの多様性が増加し、頑健性が高まる。
- DropAttention は標準のドロップアウトを補完し、併用時に追加の利得を生む可能性がある(Dropout + DropAttention)。
- 大規模 MT(WMT'16 En-De)では、p=0.2、w=2 の DropAttention がベースラインより顕著な BLEU 増加を達成。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。