Skip to main content
QUICK REVIEW

[論文レビュー] Rethinking Attention with Performers

Krzysztof Choromański, Valerii Likhosherstov|arXiv (Cornell University)|Sep 30, 2020
Domain Adaptation and Few-Shot Learning参考文献 55被引用数 122
ひとこと要約

PerformerはFAVOR+を導入してソフトマックス注意を線形の空間・時間計算で近似し、疎性の事前知識なしで大規模なTransformer風モデルを可能にし、証明可能な精度と標準的なTransformerとの互換性を提供します。

ABSTRACT

We introduce Performers, Transformer architectures which can estimate regular (softmax) full-rank-attention Transformers with provable accuracy, but using only linear (as opposed to quadratic) space and time complexity, without relying on any priors such as sparsity or low-rankness. To approximate softmax attention-kernels, Performers use a novel Fast Attention Via positive Orthogonal Random features approach (FAVOR+), which may be of independent interest for scalable kernel methods. FAVOR+ can be also used to efficiently model kernelizable attention mechanisms beyond softmax. This representational power is crucial to accurately compare softmax with other kernels for the first time on large-scale tasks, beyond the reach of regular Transformers, and investigate optimal attention-kernels. Performers are linear architectures fully compatible with regular Transformers and with strong theoretical guarantees: unbiased or nearly-unbiased estimation of the attention matrix, uniform convergence and low estimation variance. We tested Performers on a rich set of tasks stretching from pixel-prediction through text models to protein sequence modeling. We demonstrate competitive results with other examined efficient sparse and dense attention methods, showcasing effectiveness of the novel attention-learning paradigm leveraged by Performers.

研究の動機と目的

  • 疎性や低ランクの事前知識に依存せず、スケーラブルなアテンション機構の必要性を動機づける。
  • FAVOR+とともに、ソフトマックスのフルランクアテンションを線形計算量で近似するTransformerのバリアントとしてPerformersを導入する。
  • 偏りのないカーネルベースのアテンション推定のためのFAVOR+メカニズムを開発・正式化する。
  • アテンション近似について、偏りなし性・一様収束・低分散といった理論的保証を提供する。
  • 視覚・言語・生物学風の系列モデリングタスクを横断して実証的な有効性を示す。

提案手法

  • アテンションをカーネル化された形として定義し、正の直交ランダム特徴(PRFs)および直交ランダム特徴(ORFs)を用いて近似する。
  • 正のランダム特徴を用いてソフトマックスカーネルを近似し、線形の空間/時間アテンション計算を可能にするFAVOR+を規定する。
  • アテンション行列の偏りのない、またはほぼ偏りのない推定と、一様収束および分散の低減を証明する。
  • 正則化されたソフトマックスカーネルがソフトマックスを良好に近似し、実用的な訓練を可能にすることを示す。
  • 標準的なTransformerへの統合のための疑似コードを提供し、実装の詳細を議論する。

実験結果

リサーチクエスチョン

  • RQ1スパース性や低ランク性といった事前知識なしに、線形の空間/時間計算量でソフトマックスアテンションを正確に近似できるか?
  • RQ2多様なタスクで、正の直交ランダム特徴(FAVOR+)はソフトマックスアテンションの近似としてどれだけ有効か?
  • RQ3Performers近似に対して、理論的保証(偏りなし、一様収束、低分散)は成り立つか?
  • RQ4長い系列やタンパク質/データモデリングタスクにおいて、FAVOR+は他の効率的アテンション手法と比較して実証的にどう機能するか?
  • RQ5FAVOR+はTransformersを超え、他のカーネル可能なアテンション機構にも適用できるか?

主な発見

  • Performersは、線形計算量を維持しつつ、効率的なアテンション手法で競争力のある結果を達成する。
  • FAVOR+は、正則なソフトマックスアテンションの偏りのないまたはほぼ偏りのない推定を、一様収束と低い推定分散で提供する。
  • 直交および正のランダム特徴は平均二乗誤差を低減し、実用的な特徴数で正確なアテンション近似を可能にする。
  • 経験的な結果は、速度とメモリの有利なトレードオフと、事前学習済みTransformerウェイトとの微調整による互換性を示す。
  • このアプローチは長い系列(例:大きなL)やタンパク質風の系列モデリングにスケールし、線形リソースの下でTransformerの性能に匹敵するか、近づく。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。