QUICK REVIEW

[論文レビュー] Attention is Not All You Need: Pure Attention Loses Rank Doubly Exponentially with Depth

Yihe Dong, Jean-Baptiste Cordonnier|arXiv (Cornell University)|Mar 4, 2021

Neural Networks and Applications被引用数 90

ひとこと要約

本論文は、スキップ接続やMLPなしの純粋な自己注意ネットワークが、深さとともに出力を二重に指数関数的にランク-1の行列へ収束することを示す。一方、スキップ接続とMLPはこの崩壊を抑制し、パス分解を用いて分析する。

ABSTRACT

Attention-based architectures have become ubiquitous in machine learning, yet our understanding of the reasons for their effectiveness remains limited. This work proposes a new way to understand self-attention networks: we show that their output can be decomposed into a sum of smaller terms, each involving the operation of a sequence of attention heads across layers. Using this decomposition, we prove that self-attention possesses a strong inductive bias towards "token uniformity". Specifically, without skip connections or multi-layer perceptrons (MLPs), the output converges doubly exponentially to a rank-1 matrix. On the other hand, skip connections and MLPs stop the output from degeneration. Our experiments verify the identified convergence phenomena on different variants of standard transformer architectures.

研究の動機と目的

トランスフォーマー風アーキテクチャが経験的な成功を超えて機能する理由をより深く理解する動機づけ。
自己注意ネットワークの深さが増すにつれてのランク崩壊挙動を証明する。
SANを浅いネットワークのアンサンブルとして解析するためのパス分解を導入する。
スキップ接続とMLPがランク崩壊に対抗する仕組みを特徴づける。
一般的な Transformer のバリアントを用いた実験で理論結果を検証する。

提案手法

SAN の出力を、層を横断するアテンションヘッドを通るパスの和として分解する。
各パスが出力する行列がランク-1で、各行が同一になることを示し、全体としてのランク崩壊をもたらす。
単一ヘッドおよびマルチヘッド SAN に対する収束境界を導出する（例: Theorem 2.2 および Theorem 2.3）
スキップ接続、MLP、レイヤー正規化などの構成要素がランク崩壊を緩和する役割を分析する。
SAN を浅いネットワークのアンサンブルとして解釈するパスベースのフレームワークを開発する。
BERT、ALBERT、XLNet などのアーキテクチャを用いた実験で理論を検証する。

実験結果

リサーチクエスチョン

RQ1純粋な自己注意は深さが増すにつれてランク崩壊を引き起こすか？
RQ2スキップ接続、MLP、レイヤー正規化などのアーキテクチャ要素はランク崩壊にどのような影響を与えるか？
RQ3パス分解フレームワークは SAN の内部機構と帰納的バイアスを暴露できるか？
RQ4標準的なトランスフォーマーの実験結果は、ランク収束に関する理論予測を裏付けるか？
RQ5トランスフォーマーの幅-深さのトレードオフと長いパスの利用に関する実践的示唆は何か？

主な発見

スキップ接続のない自己注意ネットワークは、同一の行を持つランク-1の出力へ、深さの二重指数的な速度で収束する。
スキップ接続はパスを大幅に多様化し、実践でのランク崩壊を防ぐ。
MLPはリプシッツ定数を大きくすることでランク-1への収束を遅らせ、自己注意と牽引力を生み出す。
レイヤー正規化はこの解析ではランク崩壊を緩和しない。
パス分解はSANが浅いネットワークのアンサンブルのように振る舞い、短いパスが最大の表現力を担うことを示す。
BERT、ALBERT、XLNet の実験は、スキップ接続を外すと急速にランク崩壊が起きることを確認した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。