QUICK REVIEW

[論文レビュー] The Lipschitz Constant of Self-Attention

Hyunjik Kim, George Papamakarios|arXiv (Cornell University)|Jun 8, 2020

Mental Health Research Topics参考文献 34被引用数 29

ひとこと要約

この論文は、無限大の入力に対して標準的なドット積自己注意機構がリプシッツ連続でないことを証明し、リプシッツ連続な代替手法としてL2自己注意機構を提案する。L2自己注意機構のリプシッツ定数に対する理論的上限を導出し、文字レベル言語モデルにおける可逆自己注意機構を用いたTransformerで実用的有用性を示している。安定性と性能の向上が確認された。

ABSTRACT

Lipschitz constants of neural networks have been explored in various contexts in deep learning, such as provable adversarial robustness, estimating Wasserstein distance, stabilising training of GANs, and formulating invertible neural networks. Such works have focused on bounding the Lipschitz constant of fully connected or convolutional networks, composed of linear maps and pointwise non-linearities. In this paper, we investigate the Lipschitz constant of self-attention, a non-linear neural network module widely used in sequence modelling. We prove that the standard dot-product self-attention is not Lipschitz for unbounded input domain, and propose an alternative L2 self-attention that is Lipschitz. We derive an upper bound on the Lipschitz constant of L2 self-attention and provide empirical evidence for its asymptotic tightness. To demonstrate the practical relevance of our theoretical work, we formulate invertible self-attention and use it in a Transformer-based architecture for a character-level language modelling task.

研究の動機と目的

トランスフォーマーで広く使われている自己注意機構のリプシッツ性を分析すること。これは、これまでこの文脈では分析がなされていなかった。
標準的なドット積自己注意機構が、入力領域が無限大の場合にリプシッツ連続でないことを示すこと。これは、頑健な学習応用への応用を制限する要因である。
敵対的頑健性、正規化流れ、GANの学習といった分野で理論的保証を可能にする、リプシッツ連続な代替手法としてL2自己注意機構を提案すること。
L2自己注意機構のリプシッツ定数に対するタイトな理論的上限を導出すること。
理論的結果を実用に応用するため、可逆自己注意機構を構築し、文字レベル言語モデルに基づくトランスフォーマーで評価すること。

提案手法

入力変化が有界であっても出力が無限に速く変化しうることを示し、ドット積自己注意機構がリプシッツ連続でないことを証明する。
クエリとキーをL2正規化することで、ドット積注意を置き換えるL2自己注意機構を提案し、出力変動が有界になるように保証する。
行列ノルム解析と共分散行列の性質を用いて、L2自己注意機構のリプシッツ定数に対する上限を導出する。
導出した上限を用いて、変換が双リプシッツかつ可逆であることを保証することで、可逆自己注意層を構築する。
可逆自己注意機構を組み込んだトランスフォーマー型アーキテクチャを実装し、文字レベル言語モデルでの評価を実施する。
可逆モデルの安定性とテストログ尤度を、標準的なドット積注意と比較して実験的に評価する。

実験結果

リサーチクエスチョン

RQ1標準的なドット積自己注意機構は、無限大の入力領域に対してリプシッツ連続か？
RQ2自己注意機構の修正版を、リプシッツ連続にできるか？
RQ3このようなリプシッツ連続な自己注意モジュールのリプシッツ定数に対するタイトな理論的上限は何か？
RQ4理論的リプシッツ上限を、注意ベースのアーキテクチャにおける可逆ニューラルネットワークの構築に実用的に活用できるか？
RQ5リプシッツ連続な自己注意機構を用いることで、系列モデルタスクにおける学習の安定性と性能が向上するか？

主な発見

標準的なドット積自己注意機構は、入力ノルムが増大するにつれて出力が無限に速く変化しうるため、リプシッツ連続でない。
L2自己注意機構は構成上リプシッツ連続であり、入力変化に対する出力変動が有界であることが保証される。
本論文は、L2自己注意機構のリプシッツ定数に対する上限を $ \epsilon^{-1/2} \max_d |\gamma_d| \frac{D^2 - 2}{D} $ として導出し、与えられた仮定のもとで成立する。
実験結果から、導出した上限は高次元設定において実際のリプシッツ定数が理論的上限に近づくため、漸近的にタイトであることが示された。
リプシッツ定数に基づく可逆自己注意モジュールは、標準的なドット積注意と比較して、文字レベル言語モデルにおける訓練の安定性が向上し、競争力のあるテストログ尤度を達成した。
理論的枠組みにより、正規化流れ、GAN、敵対的頑健性といったリプシッツ制約を要する応用分野における自己注意機構の利用が可能になった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。