QUICK REVIEW

[論文レビュー] DropAttention: A Regularization Method for Fully-Connected Self-Attention Networks

Zehui Lin, Pengfei Liu|arXiv (Cornell University)|Jul 25, 2019

Domain Adaptation and Few-Shot Learning参考文献 25被引用数 34

ひとこと要約

DropAttention は Transformers の全結合自己注意に特化したドロップアウトを導入し、注意重みをドロップして共適合を低減し、タスク間の一般化を向上させる。

ABSTRACT

Variants dropout methods have been designed for the fully-connected layer, convolutional layer and recurrent layer in neural networks, and shown to be effective to avoid overfitting. As an appealing alternative to recurrent and convolutional layers, the fully-connected self-attention layer surprisingly lacks a specific dropout method. This paper explores the possibility of regularizing the attention weights in Transformers to prevent different contextualized feature vectors from co-adaption. Experiments on a wide range of tasks show that DropAttention can improve performance and reduce overfitting.

研究の動機と目的

Transformers の自己注意に特化したドロップアウト変種の必要性を動機づける。
注意重みを正則化するための DropAttention（DropAttention(c) および DropAttention(e)）を提案する。
注意ドロップアウトにおける連続領域のドロップと正規化リスケーリングの利点を調査する。
テキスト分類、系列ラベリング、テキスト含意、機械翻訳にわたり DropAttention を評価する。

提案手法

自己注意出力を ϑH̃ = f(ΛV) と再定義し、Λ = softmax(QK^T / sqrt(d_k))、V は H から計算される。
2 つの DropAttention 変種を導入する。DropAttention(c) は注意行（ベクトルレベル）の列をドロップし、DropAttention(e) は Λ の個々の要素をドロップする。
DropBlock に触発された連続領域ドロップを追加し、ウィンドウサイズ w とドロップ率 p を用いる。
ドロップ後に注意重みの総和を 1 に保つための正規化リスケーリングを適用し、学習の安定性を向上させる。
DropAttention(e) の擬似コードと DropAttention(c) の類推手順を提供する。
標準的なドロップアウトと補完的であることを評価するため、複数の NLP タスクで正則化効果を評価する。

実験結果

リサーチクエスチョン

RQ1DropAttention は全結合自己注意ネットワークの一般化を改善し、過学習を低減するか？
RQ2DropAttention(c) と DropAttention(e) はタスク間で性能と頑健性の点でどう比較されるか？
RQ3連続領域をドロップする（ウィンドウサイズ w）ことが注意分布やモデル挙動に与える影響は？
RQ4注意ドロップアウトにおいて正規化リスケーリングは従来のリスケーリング (1-p) より望ましいか？
RQ5DropAttention は標準のドロップアウトと併用した場合どう相互作用するか？

主な発見

DropAttention はテキスト分類、系列ラベリング、テキスト含意、機械翻訳タスクの性能を向上させる。
正規化リスケーリングは一般に DropAttention における従来のリスケーリング (1-p) よりも優れている。
DropAttention(c) が分類タスクでしばしば DropAttention(e) より高い性能を示す。
連続領域をより大きな w でドロップし、ドロップ率を高くすると、注意分布のエントロピーとヘッドの多様性が増加し、頑健性が高まる。
DropAttention は標準のドロップアウトを補完し、併用時に追加の利得を生む可能性がある（Dropout + DropAttention）。
大規模 MT（WMT'16 En-De）では、p=0.2、w=2 の DropAttention がベースラインより顕著な BLEU 増加を達成。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。