Skip to main content
QUICK REVIEW

[論文レビュー] DropAttention: A Regularization Method for Fully-Connected Self-Attention Networks

Zehui Lin, Pengfei Liu|arXiv (Cornell University)|Jul 25, 2019
Domain Adaptation and Few-Shot Learning参考文献 25被引用数 34
ひとこと要約

DropAttention は Transformers の全結合自己注意に特化したドロップアウトを導入し、注意重みをドロップして共適合を低減し、タスク間の一般化を向上させる。

ABSTRACT

Variants dropout methods have been designed for the fully-connected layer, convolutional layer and recurrent layer in neural networks, and shown to be effective to avoid overfitting. As an appealing alternative to recurrent and convolutional layers, the fully-connected self-attention layer surprisingly lacks a specific dropout method. This paper explores the possibility of regularizing the attention weights in Transformers to prevent different contextualized feature vectors from co-adaption. Experiments on a wide range of tasks show that DropAttention can improve performance and reduce overfitting.

研究の動機と目的

  • Transformers の自己注意に特化したドロップアウト変種の必要性を動機づける。
  • 注意重みを正則化するための DropAttention(DropAttention(c) および DropAttention(e))を提案する。
  • 注意ドロップアウトにおける連続領域のドロップと正規化リスケーリングの利点を調査する。
  • テキスト分類、系列ラベリング、テキスト含意、機械翻訳にわたり DropAttention を評価する。

提案手法

  • 自己注意出力を ϑH̃ = f(ΛV) と再定義し、Λ = softmax(QK^T / sqrt(d_k))、V は H から計算される。
  • 2 つの DropAttention 変種を導入する。DropAttention(c) は注意行(ベクトルレベル)の列をドロップし、DropAttention(e) は Λ の個々の要素をドロップする。
  • DropBlock に触発された連続領域ドロップを追加し、ウィンドウサイズ w とドロップ率 p を用いる。
  • ドロップ後に注意重みの総和を 1 に保つための正規化リスケーリングを適用し、学習の安定性を向上させる。
  • DropAttention(e) の擬似コードと DropAttention(c) の類推手順を提供する。
  • 標準的なドロップアウトと補完的であることを評価するため、複数の NLP タスクで正則化効果を評価する。

実験結果

リサーチクエスチョン

  • RQ1DropAttention は全結合自己注意ネットワークの一般化を改善し、過学習を低減するか?
  • RQ2DropAttention(c) と DropAttention(e) はタスク間で性能と頑健性の点でどう比較されるか?
  • RQ3連続領域をドロップする(ウィンドウサイズ w)ことが注意分布やモデル挙動に与える影響は?
  • RQ4注意ドロップアウトにおいて正規化リスケーリングは従来のリスケーリング (1-p) より望ましいか?
  • RQ5DropAttention は標準のドロップアウトと併用した場合どう相互作用するか?

主な発見

  • DropAttention はテキスト分類、系列ラベリング、テキスト含意、機械翻訳タスクの性能を向上させる。
  • 正規化リスケーリングは一般に DropAttention における従来のリスケーリング (1-p) よりも優れている。
  • DropAttention(c) が分類タスクでしばしば DropAttention(e) より高い性能を示す。
  • 連続領域をより大きな w でドロップし、ドロップ率を高くすると、注意分布のエントロピーとヘッドの多様性が増加し、頑健性が高まる。
  • DropAttention は標準のドロップアウトを補完し、併用時に追加の利得を生む可能性がある(Dropout + DropAttention)。
  • 大規模 MT(WMT'16 En-De)では、p=0.2、w=2 の DropAttention がベースラインより顕著な BLEU 増加を達成。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。