[論文レビュー] Compressive Transformers for Long-Range Sequence Modelling
The Compressive Transformer extends Transformer memory with compressed past activations, achieving state-of-the-art perplexity/bpc on Enwik8 and WikiText-103 and proposing PG-19 as a long-range LM benchmark.
We present the Compressive Transformer, an attentive sequence model which compresses past memories for long-range sequence learning. We find the Compressive Transformer obtains state-of-the-art language modelling results in the WikiText-103 and Enwik8 benchmarks, achieving 17.1 ppl and 0.97 bpc respectively. We also find it can model high-frequency speech effectively and can be used as a memory mechanism for RL, demonstrated on an object matching task. To promote the domain of long-range sequence learning, we propose a new open-vocabulary language modelling benchmark derived from books, PG-19.
研究の動機と目的
- ロス性のある人間の記憶圧縮を模倣して、長距離のシーケンスモデリングを動機づける。
- 過去の活性化を圧縮メモリに圧縮する、メモリ拡張型 Transformer を提案する。
- 文字レベルおよび語レベルの言語モデリングベンチマークで最先端の性能を示す。
- 高頻度の音声モデリングおよび強化学習のメモリタスクへの適用可能性を示す。
- PG-19、書籍規模のオープンボキャブラリ言語モデリングベンチマークを導入する。
提案手法
- 過去の活性化のメモリ(memory)と、第二の圧縮メモリ(compressed memories)を持つ Transformer を拡張する。
- 各層で、現在の memory と圧縮 memory の両方に対して multi-head attention で注意を払う。
- 最も古い記憶を、圧縮関数 f_c を用いて圧縮し、新しい圧縮メモリを形成する。
- 注意再構成や自己符号化などの圧縮目的を、タスク目的(注意ベースの言語モデリング)と共に学習する。
- 計算量を同等に保ちながら、時間的範囲と注意の使用を分析して拡張された文脈を示す。
- Enwik8、WikiText-103、音声、強化学習での実験に加え、PG-19 ベンチマークを用いる。
実験結果
リサーチクエスチョン
- RQ1圧縮メモリは、計算コストを過度に増大させることなく、Transformer ベースのモデルの有効な時間的範囲を拡張できるか。
- RQ2異なる圧縮関数と補助損失は、長距離の言語モデリングの性能にどのように影響するか。
- RQ3メモリを圧縮で拡張した場合、文字レベルおよび語レベルのベンチマークでどのような性能向上が得られるか。
- RQ4この手法は音声モデリングおよび強化学習のメモリタスクに適用可能か。
- RQ5PG-19 は将来のモデルにとって意味のある長距離ベンチマークを提供するか。
主な発見
| Model | BPC |
|---|---|
| 24L TransformerXL (ours) | 0.99 |
| 24L Compressive Transformer | 0.97 |
- 24層の Compressive Transformer で Enwik8 上の 0.97 bits-per-character を達成し、従来の最先端を上回る。
- WikiText-103で 17.1 perplexity を獲得(18L TXL baseline 18.3; 18L Compressive Transformer 17.1)。
- PG-19 では Compressive Transformer が 33.6 perplexity (valid) を達成する一方、TransformerXL (36L) は 36.3。
- モデルは希少語をよりうまくモデリングし、頻度の低い語のバケツで顕著な改善を示す。
- 競争力のある音声モデリングを示し、memory-based タスクの IMPALA RL エージェントのメモリコンポーネントとしての成功例を示す。
- PG-19 をオープンボキャブラリと書籍規模のスケールを持つ長距離言語モデリングベンチマークとして提供する。)
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。