QUICK REVIEW

[論文レビュー] Big Bird: Transformers for Longer Sequences

Manzil Zaheer, Guru Guruganesh|arXiv (Cornell University)|Jul 28, 2020

Topic Modeling参考文献 111被引用数 273

ひとこと要約

Big Birdは、トランスフォーマーをシーケンス長に対して線形にスケールさせるスパースアテンション機構を導入し、理論的保証とNLPおよびゲノミクス課題での強力な実証的効果を伴う長い文脈のモデリングを可能にします。

ABSTRACT

Transformers-based models, such as BERT, have been one of the most successful deep learning models for NLP. Unfortunately, one of their core limitations is the quadratic dependency (mainly in terms of memory) on the sequence length due to their full attention mechanism. To remedy this, we propose, BigBird, a sparse attention mechanism that reduces this quadratic dependency to linear. We show that BigBird is a universal approximator of sequence functions and is Turing complete, thereby preserving these properties of the quadratic, full attention model. Along the way, our theoretical analysis reveals some of the benefits of having $O(1)$ global tokens (such as CLS), that attend to the entire sequence as part of the sparse attention mechanism. The proposed sparse attention can handle sequences of length up to 8x of what was previously possible using similar hardware. As a consequence of the capability to handle longer context, BigBird drastically improves performance on various NLP tasks such as question answering and summarization. We also propose novel applications to genomics data.

研究の動機と目的

長いシーケンスに対する標準の自己注意の2次のメモリボトルネックを動機づけ、対処する。
グローバルトークン、ローカルウィンドウアテンション、ランダム接続を組み合わせたスパースアテンション機構を提案する。
スパースアテンション Transformers の普遍近似性とチューリング完全性の特性を証明する。
長い文脈を扱うNLPタスク（QA、要約）およびゲノミクス応用における実証的な利得を示す。
理論と実践におけるスパースアテンションの含意と限界を探る。

提案手法

各トークン i から隣接領域 N(i) へのアテンションを含む、有向グラフ D 上の一般化されたスパースアテンションを定義する。
三つの要素を使用する：すべてのトークンを対象とするグローバルトークン g、幅 w のローカルウィンドウアテンション、ランダムなアテンション接続 r。
表現力を保つために追加のグローバルトークンを備えたBig Birdの変種（BigBird-itcおよびBigBird-etc）を示す。
スパースアテンションエンコーダがシーケンス対シーケンス関数の普遍近似器であること、そしてスパースエンコーダ-デコーダー transformers がチューリング完全であることを証明する。
全注意が2次であるのに対し、n に対して線形の注意の複雑性分析を提供する。
長い文脈を持つ MLM を用いた事前学習、QAベンチマーク、長文要約、およびゲノミクス課題における実証的結果を示す。

実験結果

リサーチクエスチョン

RQ1スパースアテンションは、計算とメモリコストを削減しつつ、フル2次のアテンションの実証的利益を達成できるだろうか？
RQ2スパースアテンションのトランスフォーマーは、フルTransformersの表現力（普遍近似性とチューリング完全性）を保持するのか？
RQ3Big Bird はどれだけの文脈を効果的にモデル化できるのか、ローカルアテンションやランダムアテンションのみとのトレードオフはどのようか？
RQ4固定長文脈モデルと比べて、長い文脈モデルはQA、要約、ゲノミクス課題で性能を改善するのか？

主な発見

Big Bird はアテンションの複雑性を O(n) に削減し、類似のハードウェア上で従来手法より最大8倍長いシーケンスを処理できる。
スパースアテンションにグローバルトークンを用いた普遍関数近似性を保持し、チューリング完全である。
Big Bird はLonger contexts を用いてQAおよび要約ベンチマークで最先端または強力な結果を達成。
Big Birdを用いた長い文脈の事前学習は、ゲノミクスのプロモーター領域およびクロマチンプロファイル予測を含む下流タスクを改善。
複数のデータセットでBERT系ベースラインや類似手法（例: Longformer）より利得が示される。
極端にスパースなアテンションが特定のタスクでより多くの層を必要とする制約を示す理論的下界がある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。