QUICK REVIEW

[論文レビュー] Train Short, Test Long: Attention with Linear Biases Enables Input Length Extrapolation

Ofir Press, Noah A. Smith|arXiv (Cornell University)|Aug 27, 2021

Topic Modeling被引用数 115

ひとこと要約

この論文は ALiBi を導入し、ポジショニング埋め込みを追加せずに、訓練時に見られた長さより長い入力シーケンスへ外挿できるようにする、単純なアテンションのバイアスを提案します。

ABSTRACT

Since the introduction of the transformer model by Vaswani et al. (2017), a fundamental question has yet to be answered: how does a model achieve extrapolation at inference time for sequences that are longer than it saw during training? We first show that extrapolation can be enabled by simply changing the position representation method, though we find that current methods do not allow for efficient extrapolation. We therefore introduce a simpler and more efficient position method, Attention with Linear Biases (ALiBi). ALiBi does not add positional embeddings to word embeddings; instead, it biases query-key attention scores with a penalty that is proportional to their distance. We show that this method trains a 1.3 billion parameter model on input sequences of length 1024 that extrapolates to input sequences of length 2048, achieving the same perplexity as a sinusoidal position embedding model trained on inputs of length 2048 but training 11% faster and using 11% less memory. ALiBi's inductive bias towards recency also leads it to outperform multiple strong position methods on the WikiText-103 benchmark.

研究の動機と目的

トランスフォーマーがトレーニング時より長いシーケンスへ外挿するのが困難になる原因を調査する。
既存の位置づけ手法（サイン波、ロータリ、T5 バイアス）の外挿性能を評価する。
距離に基づいてアテンションをバイアスする、単純で効率的な代替案（ALiBi）を提案する。
ALiBi が短いシーケンスでの訓練を可能にし、長いシーケンス推論を信頼性高く行えることを実証する。
ドメインやモデルサイズを超えて適用可能であることを示し、大規模設定も含む。

提案手法

下部の位置埋め込みを置換し、距離に基づく線形バイアスをアテンションのスコアに追加する。
外挿挙動を制御するため、ヘッドごとのスロープを固定された等比級数で設定する。
短いシーケンスでトランスフォーマーモデルを訓練し、モデルパラメータを変更せずに長いシーケンスでパープレキシティを評価する。
速度、メモリ、パープレキシティの観点で、ALiBiをサイン波、ロータリ、T5バイアスのベースラインと比較する。
WikiText-103とCC100+RoBERTaドメインで、訓練長の数倍（例: 2x–3x 以上）までの外挿性能を実証する。

実験結果

リサーチクエスチョン

RQ1長い入力長への外挿を、長いシーケンスの追加訓練を行わず、位置付け手法のみを変更することで実現できるか。
RQ2異なるモデルサイズとデータセットに対して、ALiBi はサイン波、ロータリ、T5 バイアスと、パープレキシティ、速度、メモリの観点でどう比較されるか。
RQ3ALiBi は非常に長いシーケンス（例：10,000 トークン）へ外挿しても性能を維持できるか、また多様なドメインでどうか。
RQ4ALiBi は実装が容易で、実行時コストやメモリ負荷がほとんどかからないのか。

主な発見

ALiBi は短いシーケンスで訓練を可能にし、長いシーケンスで評価したとき、サイン波ベースのベースラインと同等かそれ以上のパープレキシティを達成する。
1.3B パラメータモデルを L=1024 で訓練した場合、2048 トークン評価時に 2048 で訓練されたサイン波モデルと同等のパープレキシティを達成し、訓練は 11% 速く、メモリ使用量は 11% 少なくなる。
ALiBi は最大 10,000 トークンの長さまで外挿しても高い性能を維持する。
WikiText-103 では、L=512–3072 で訓練した ALiBi モデルが外挿域全体でサイン波ベースを上回り、顕著な速度とメモリの利点を示す。
CC100+RoBERTa では、ALiBi はサイン波ベースと同等のパープレキシティを達成しつつ、メモリを6%–11%削減し、大規模設定で訓練を7%速くする。
ALiBi は異なるドメイン（書籍など）への転移性を示し、ハイパーパラメータ（傾き）を再調整せずにスケールする。）

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。