[論文レビュー] BP-Transformer: Modelling Long-Range Context via Binary Partitioning
BP-Transformer は binary-partitioned multi-scale graph attention mechanism を用いて、O(k · n log(n/k)) の接続で長距離の文脈をモデル化し、長文NLPタスクで高い性能を発揮しつつ効率を向上させます。
The Transformer model is widely successful on many natural language processing tasks. However, the quadratic complexity of self-attention limit its application on long text. In this paper, adopting a fine-to-coarse attention mechanism on multi-scale spans via binary partitioning (BP), we propose BP-Transformer (BPT for short). BPT yields $O(k\cdot n\log (n/k))$ connections where $k$ is a hyperparameter to control the density of attention. BPT has a good balance between computation complexity and model capacity. A series of experiments on text classification, machine translation and language modeling shows BPT has a superior performance for long text than previous self-attention models. Our code, hyperparameters and CUDA kernels for sparse attention are available in PyTorch.
研究の動機と目的
- 2次の自己注意コストを超える長文モデリングの改善を動機づける。
- 多スケールのスパンに対する階層的でファイントゥーコースのアテンションバイアスを導入する。
- 疎で構造化された結合を介してモデル容量と計算コストの削減のバランスを取る。
- 入力をトークンノードとスパンノードを持つグラフとして表現し、グラフ自己注意で更新する。
- 文レベルおよび文書レベルのNLPタスクでの有効性を示す。
提案手法
- 二分割を用いて入力列を多スケールのスパンに分割し、階層的なグラフを形成する。
- 密度を k で制御する、アフィリエイトエッジ(スパンとその包含トークン)とコンテキストエッジ(fine-to-coarse な右文脈接続)の2種類のエッジを構築する。
- 構築されたグラフ層全体でグラフ自己注意を用いてノード表現を更新する。
- BP-ツリー上で位置バイアスを捉えるため、相対的位置エンコーディングを木構造に一般化する。
- アテンション計算へ相対木ベースの位置表現を組み込み(ヘッド間で共有)。
- 疎なアテンション用の CUDA カーネルを提供し、トレーニング/推論の効率改善を報告する。
実験結果
リサーチクエスチョン
- RQ1BP-Transformer は疎で階層的な結合を用いて長距離依存を効率的にモデル化できるか。
- RQ2二分割による細粒度から粗粒度へのアテンションが、長文での vanilla Transformer や他の疎注意モデルより性能を向上させるか。
- RQ3強力なベースラインと比較して、BP-Transformer は文レベルおよび文書レベルの NLP タスク(分類、翻訳、言語モデリング)でどのように性能を示すか。
主な発見
- BP-Transformer は言語モデリング、翻訳、テキスト分類の幅広い分野で強力な結果を上げ、長文においてベースラインを上回る。
- テキスト分類では、SST-5: 52.71% (0.32) および IMDB: 92.12% (0.11) を k=2/4 で達成し、IMDB で Transformer および Star Transformer を上回る。
- Enwiki8/Text8 での文字レベル言語モデリングは、k=64 を用いて 1.02/1.11 bits-per-character(文脈長さは最大8192)で最先端の性能を示す。
- IWSLT Zh-En の文書レベル翻訳で BP-T により BLEU が 19.84 に改善され、18.91(文レベル Transformer)および 17.78(HAN-NMT)と比べて向上。
- 文レベルの WMT14 英独で BP-T は BLEU を最大 27.6(k=4)に達し、同じパラメータ数の Transformer ベースラインと同等かそれを超える。
- BP-Transformer は GPU メモリ使用量を削減し、長いシーケンスでのスループットを安定させ、シーケンス長が増えるにつれて vanilla Transformer を上回る。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。