QUICK REVIEW

[論文レビュー] $O(n)$ Connections are Expressive Enough: Universal Approximability of Sparse Transformers

Chulhee Yun, Yin-Wen Chang|arXiv (Cornell University)|Jun 8, 2020

Domain Adaptation and Few-Shot Learning被引用数 25

ひとこと要約

この論文は、1つのアテンション層あたりO(n)の接続しか持たないスパースなトランスフォーマーが、連続的なシーケンス・ツー・シーケンス関数を普遍的に近似できることを確立している。これは、O(n²)の接続を持つ密なトランスフォーマーと同等の表現力を持つことを示している。著者らは、スパース性のパターンとアテンションマップに関する十分条件を備えた統一的な理論的枠組みを導入し、これらの制約下でスパースモデルの普遍的近似可能性を証明した。さらに、自然言語処理タスクにおける実験的検証を通じてその有効性を裏付けた。

ABSTRACT

Recently, Transformer networks have redefined the state of the art in many NLP tasks. However, these models suffer from quadratic computational cost in the input sequence length $n$ to compute pairwise attention in each layer. This has prompted recent research into sparse Transformers that sparsify the connections in the attention layers. While empirically promising for long sequences, fundamental questions remain unanswered: Can sparse Transformers approximate any arbitrary sequence-to-sequence function, similar to their dense counterparts? How does the sparsity pattern and the sparsity level affect their performance? In this paper, we address these questions and provide a unifying framework that captures existing sparse attention models. We propose sufficient conditions under which we prove that a sparse attention model can universally approximate any sequence-to-sequence function. Surprisingly, our results show that sparse Transformers with only $O(n)$ connections per attention layer can approximate the same function class as the dense model with $n^2$ connections. Lastly, we present experiments comparing different patterns/levels of sparsity on standard NLP tasks.

研究の動機と目的

スパースなトランスフォーマーが、密なトランスフォーマーと同等の普遍的近似能力を保持できるかどうかという根本的な問いに答えること。
スパース自己アテンション機構における普遍的近似可能性を保証するための、スパース性のパターンとアテンションマップに関する十分条件を同定すること。
1層あたりO(n)の接続で十分であることを示し、O(n²)の接続が必要であるという仮定に疑問を呈すること。
既存のスパースアテンションパターン（例：ストライド、固定、スターパターン）を共通の理論的枠組みで統一的に分析すること。
さまざまなスパース性のパターンとレベルが、標準的な自然言語処理ベンチマークに与える影響を実験的に評価すること。

提案手法

既存のスパース性のパターンを一般化して共通の数学的構造に統合することで、スパースなトランスフォーマーを分析する統一的なフレームワークを提案する。
仮定1：スパース性のパターンに関する接続性条件で、トークン間の十分な長距離情報伝達を保証する。
仮定2：アテンションマップの確率分布に関する条件で、安定的かつ表現力のあるアテンション重みを保証する。
定理1の証明：仮定1および2を満たすスパースなトランスフォーマーは、シーケンス長にかかわらず、任意の連続的なシーケンス・ツー・シーケンス関数を普遍的に近似可能である。
推論2の導出：1層あたりO(n)の接続しか持たないスパースなトランスフォーマーでさえ、普遍的近似可能であり、密なモデルと同等の表現力を有する。
合成コピー、言語モデリング、翻訳、GLUEタスクにおける実験を通じて、制御された条件下でスパース性のパターンとレベルを比較した。

実験結果

リサーチクエスチョン

RQ1O(n²)未満の接続しか持たないスパースなトランスフォーマーでも、依然として任意の連続的なシーケンス・ツー・シーケンス関数を普遍的に近似可能か？
RQ2スパース性のパターンとアテンションマップにどのような構造的・確率的条件が、スパースなトランスフォーマーにおける普遍的近似可能性を保証するのに十分か？
RQ3スパース性のパターン（例：ストライド、固定、スターパターン）の選択が、さまざまな自然言語処理タスクにおけるモデル性能にどのように影響するか？
RQ4O(n)の接続を持つスパースなトランスフォーマーは、密なトランスフォーマーと同等の表現力を有するか？
RQ5標準的な自然言語処理ベンチマークにおいて、スパース性のレベル、パターン設計、および下流の性能の間にはどのようなトレードオフがあるか？

主な発見

Corollary 2で示されたように、1つのアテンション層あたりO(n)の接続しか持たないスパースなトランスフォーマーは、任意の連続的なシーケンス・ツー・シーケンス関数を普遍的に近似可能である。
実際の応用でよく使われるストライド、固定、スターパターンは、提案された十分条件を満たしており、したがって普遍的近似可能である。
合成コピータスクでは、ストライドパターンを用いたMultiheadおよびSequential構成が、3層および4層モデルでそれぞれ99.84%および99.97%の精度を達成し、ランダムおよびスターパターンを上回った。
WMT翻訳タスクでは、ストライドおよび固定パターンが密なモデルと同等のBLEUスコアを達成し、特にen-deおよびde-en翻訳で他のパターンを上回った。
BERT_BASEを用いたGLUEタスクでは、ストライドおよび固定パターンがCoLAおよびMRPCで平均90%以上の精度を達成した一方、ランダムおよびスターパターンは著しく劣った。
結果から、接続性とパターン設計の重要性が明らかになった。双方向モデルはスターパターンに強く依存するが、自己回帰的モデルはマスクアテンションのため、スターパターンをうまく活用できない。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。