Skip to main content
QUICK REVIEW

[論文レビュー] Attention is Not All You Need: Pure Attention Loses Rank Doubly Exponentially with Depth

Yihe Dong, Jean-Baptiste Cordonnier|arXiv (Cornell University)|Mar 5, 2021
Neural Networks and Applications参考文献 36被引用数 71
ひとこと要約

純粋な自己注意ネットワーク(SAN)は、スキップ接続やMLPで対抗されない限り、深さとともに指標の階数が指数関数的に1次の出力へ崩壊する。著者はSANを分析するためのパス分解を導入し、標準的な transformer アーキテクチャ上で所見を検証する。

ABSTRACT

Attention-based architectures have become ubiquitous in machine learning, yet our understanding of the reasons for their effectiveness remains limited. This work proposes a new way to understand self-attention networks: we show that their output can be decomposed into a sum of smaller terms, each involving the operation of a sequence of attention heads across layers. Using this decomposition, we prove that self-attention possesses a strong inductive bias towards "token uniformity". Specifically, without skip connections or multi-layer perceptrons (MLPs), the output converges doubly exponentially to a rank-1 matrix. On the other hand, skip connections and MLPs stop the output from degeneration. Our experiments verify the identified convergence phenomena on different variants of standard transformer architectures.

研究の動機と目的

  • アテンションベースのアーキテクチャが、経験的な性能を超えてなぜ効果的であるかを理解する。
  • 深層自己注意ネットワークにおけるランク崩壊の挙動を特徴づける。
  • トランスフォーマーにおけるランク崩壊を緩和するアーキテクチャ的機構を特定する。
  • SANを解析するための分解法(パスに基づく)を提供し、一般的なモデルで実験により検証する。

提案手法

  • SANの出力をパスの和として分解する。各パスは層を横断するヘッドの列である。
  • 純粋なSANは、同一行を持つランク1の出力へ収束することを証明する。収束速度を定量化する(二重指数的、単一ヘッドのパスでは立方的収束速度)。
  • アーキテクチャのバリアント(スキップ接続、MLP、層正規化)を導出し、対抗力を研究するために収束境界を再導出する。
  • パス分解を用いてSANを浅いネットワークのアンサンブルとしてモデル化し、そのランク挙動を解析する。
  • BERT、ALBERT、XLNetを対象にランク崩壊現象を実証的に検証し、パスの効果を視覚化する。

実験結果

リサーチクエスチョン

  • RQ1純粋な自己注意は深さが増すにつれてランク崩壊を引き起こすのか?
  • RQ2スキップ接続および/またはMLPブロックはトランスフォーマーアーキテクチャにおけるランク崩壊にどのような影響を与えるのか?
  • RQ3ネットワークの表現力に寄与するパス長の役割は何か?
  • RQ4パスベースの分解はSANsに観察される帰納的バイアスを説明できるか?

主な発見

  • スキップ接続やMLPを持たないSANは、同一行を持つランク1の出力へ収束し、二重指数的な速度(パスごとに立方的)で収束する。
  • スキップ接続はパスを多様化し、ランク崩壊を著しく緩和し、非自明な残差を可能にする。
  • MLPはリプシッツ定数を増加させることでランク1への収束を遅らせ、自己注意と引っ張り合いを生み出す。
  • 層正規化はランク崩壊を緩和しない。
  • BERT、ALBERT、XLNetを用いた実験は、純粋なSANでランク崩壊を確認し、スキップ接続の緩和役割を示す。パス長の分析は、短いパスが最も表現力を担うことを明らかにする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。