[論文レビュー] Single Headed Attention RNN: Stop Thinking With Your Head
この論文はSHA-RNNを提案しており、単一ヘッドのアテンションを備えたLSTMモデルが、単一GPUで最小限のハイパーパラメータ調整を行い enwik8 における最先端レベルのバイトレベル言語モデリングに近づく。多くのアテンションヘッドの必然性に挑戦し、トークナイゼーションの感度と訓練効率の実用的考慮事項も検討している。
The leading approaches in language modeling are all obsessed with TV shows of my youth - namely Transformers and Sesame Street. Transformers this, Transformers that, and over here a bonfire worth of GPU-TPU-neuromorphic wafer scale silicon. We opt for the lazy path of old and proven techniques with a fancy crypto inspired acronym: the Single Headed Attention RNN (SHA-RNN). The author's lone goal is to show that the entire field might have evolved a different direction if we had instead been obsessed with a slightly different acronym and slightly different result. We take a previously strong language model based only on boring LSTMs and get it to within a stone's throw of a stone's throw of state-of-the-art byte level language model results on enwik8. This work has undergone no intensive hyperparameter optimization and lived entirely on a commodity desktop machine that made the author's small studio apartment far too warm in the midst of a San Franciscan summer. The final results are achievable in plus or minus 24 hours on a single GPU as the author is impatient. The attention mechanism is also readily extended to large contexts with minimal computation. Take that Sesame Street.
研究の動機と目的
- 言語モデリングにおけるトランスフォーマー中心以外のアーキテクチャを探究する動機づけと、低リソースでLSTMベースのアプローチで競争力のある結果を示す。
- LSTM と組み合わせたシンプルでメモリ効率の良いアテンション機構(SHA-RNN)と Boom フィードフォワード層を導入する。
- 単一のアテンションヘッドがほとんどの利得を生み出せること、並びにメモリ/計算効率がコモディティハードウェアでの高速訓練を可能にすることを示す。
- トークナイゼーション、訓練ツール、そして Transformer が支配的な文献を超えた広い研究方向への含意を論じる。
提案手法
- 埋め込み層、単一アテンションヘッドを備えた1つ以上の SHA-RNN 層、および結合重みを共有したソフトマックス分類器を組み合わせた SHA-RNN アーキテクチャを提案する。
- 単一ヘッドで書き込み回数が一度のメモリを用いた簡略化されたアテンション機構を使用する(大規模なタイムステップごとの行列積は行わない)。
- 伝統的なダウンプロジェクション層の一部を置換する計算効率の高い Boom 層を導入する。
- 残差接続のないネットワークでの収束を改善するため、最小限の信頼性を持つ LAMB オプティマイザを適用する。
- byte-level enwik8 の実験と、単語レベルのトークナイゼーションや WikiText データセットとの比較を議論する。
実験結果
リサーチクエスチョン
- RQ1単一ヘッドのアテンション機構が LSTM の上に成り立つ場合、最小調整で最先端のバイトレベル言語モデリングに対抗できるか、または追いつくか。
- RQ2アテンションヘッドの削減が enwik8 での性能と訓練効率にどう影響するか。
- RQ3トークナイゼーションの方式が perplexity およびモデル間の比較可能性に及ぼす実用的な影響は何か。
- RQ4Boom 層、過剰パラメータ化された静的ベクトルなど、訓練の安定性と性能に寄与するアーキテクチャ要素は何か。
主な発見
| Model | Heads | Valid | Test | Params |
|---|---|---|---|---|
| Large RHN (Zilly et al., 2016) | 0 | - | 1.27 | 46M |
| 3 layer AWD-LSTM (Merity et al., 2018b) | 0 | - | 1.232 | 47M |
| T12 (12 layer) (Al-Rfou et al., 2019) | 24 | - | 1.11 | 44M |
| LSTM (Melis et al., 2019) | 0 | 1.182 | 1.195 | 48M |
| Mogrifier LSTM (Melis et al., 2019) | 0 | 1.135 | 1.146 | 48M |
| 4 layer SHA-LSTM (h=1024, no attention head) | 0 | 1.312 | 1.330 | 51M |
| 4 layer SHA-LSTM (h=1024, single attention head) | 1 | 1.100 | 1.076 | 52M |
| 4 layer SHA-LSTM (h=1024, attention head per layer) | 4 | 1.096 | 1.068 | 54M |
| T64 (64 layer) (Al-Rfou et al., 2019) | 128 | - | 1.06 | 235M |
| Transformer-XL (12 layer) (Dai et al., 2019) | 160 | - | 1.06 | 41M |
| Transformer-XL (18 layer) (Dai et al., 2019) | 160 | - | 1.03 | 88M |
| Adaptive Transformer (12 layer) (Sukhbaatar et al., 2019) | 96 | 1.04 | 1.02 | 39M |
| Sparse Transformer (30 layer) (Child et al., 2019) | 240 | - | 0.99 | 95M |
- SHA-RNN は単一アテンションヘッドで、マルチヘッド構成の性能上の利得にほぼ匹敵する。
- 単一GPUでの最小限のハイパーパラメータ調整で訓練を行うと、記述されたトレーニング時間の範囲内で競争的な結果を得られる(エポック時間は設定によって約1800秒程度)。
- enwik8 実験では、1ヘッドの SHA-LSTM が効率の点で顕著な改善を示し、1ヘッドモデルは 4ヘッドのバリアントより訓練が速く(約30分/エポック対約67分)。
- Boom 層は従来のダウンプロジェクション層に比べてパラメータ数と計算を削減しつつ高い性能を発揮する。
- トークナイゼーションの選択は perplexity に大きな影響を及ぼし、トークナイズ攻撃の可能性やトークナイゼーションが異なる場合の公正なモデル比較の難しさを浮き彫りにする。
- 本研究は Transformer を超えたモデルの多様性を維持することの重要性を訴え、SHA-RNN を有望な代替案として示し、蒸留やより広篐な普及性の基盤となる可能性を示唆する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。