[論文レビュー] Adaptive Input Representations for Neural Language Modeling
本論文は適応ソフトマックスを入力表現に拡張した適応入力埋め込みを導入し、Wikitext-103と Billion Word ベンチマークで訓練速度の向上と困惑度の改善を示す。
We introduce adaptive input representations for neural language modeling which extend the adaptive softmax of Grave et al. (2017) to input representations of variable capacity. There are several choices on how to factorize the input and output layers, and whether to model words, characters or sub-word units. We perform a systematic comparison of popular choices for a self-attentional architecture. Our experiments show that models equipped with adaptive embeddings are more than twice as fast to train than the popular character input CNN while having a lower number of parameters. On the WikiText-103 benchmark we achieve 18.7 perplexity, an improvement of 10.5 perplexity compared to the previously best published result and on the Billion Word benchmark, we achieve 23.02 perplexity.
研究の動機と目的
- 語彙頻度に応じて入力埋め込み容量を変えることで過学習とパラメータ数の削減を動機づける。
- 語彙を頻度ベースのクラスタに分割し、各クラスタで埋め込み次元を割り当て、共通次元へ射影してモデル入力とする適応入力埋め込みを提案・実装する。
- 自己注意型アーキテクチャで語彙・サブワード・文字ベースの入力/出力因数分解を比較する。
- Wikitext-103と Billion Word データセットで訓練効率と困惑度の改善を評価する。
提案手法
- 適応ソフトマックスを入力表現へ拡張し、語群ごとに可変容量を持つ仕組みを導入する。
- 入力語彙を頻度ベースのクラスタに分割し、クラスタごとに埋め込み次元を割り当て、モデル入力前に共通次元へ射影する。
- 適応ソフトマックスで入力埋め込みと出力埋め込みを結びつけてパラメータをさらに削減することも検討する。
- Transformer風デコーダにおいて、語・サブワード・文字ベースの入力を異なる構成で系統的に比較する。
- Nesterovモーメント、コサイン学習率スケジュール、分散マルチGPU構成で訓練を行い、適応ソフトマックスの尾部射影にドロップアウト正則化を適用する。
実験結果
リサーチクエスチョン
- RQ1適応入力埋め込みは固定サイズ埋め込みと文字ベース入力と比べて言語モデルの性能と訓練速度を改善するか。
- RQ2語彙・出力の異なる因子分解(語・サブワード・文字)が困惑度とパラメータ効率に与える影響はどうか。
- RQ3適応設定で入力埋め込みと出力埋め込みを結びつけると性能とパラメータ数にどう影響するか。
- RQ4希少語と頻出語の扱いおよび正則化がモデル精度に与える影響は。
- RQ5大規模モデルの文脈サイズと訓練ブロックサイズが困惑度に与える影響は。
主な発見
| Input | Output | 有効 Perplexity | Test Perplexity | Train Time (hours) | Parameters |
|---|---|---|---|---|---|
| SM | Embedding+Softmax | 23.87 | 24.92 | 57 | 476.8M |
| BPE | BPE Embedding+BPE Softmax | 23.13 | 24.25 | 30 | 270M |
| BPE-T | BPE Embedding+BPE Softmax (tied) | 22.46 | 23.45 | 30 | 235.7M |
| SM-T | Embedding+Softmax (tied) | 22.63 | 23.38 | 56 | 339.7M |
| ASM | Embedding+Adaptive | 21.23 | 22.18 | 35 | 263.1M |
| CNN | Char-CNN+Adaptive | 20.86 | 21.79 | 70 | 266.3M |
| ADP | Adaptive+Adaptive | 20.95 | 21.74 | 34 | 291.3M |
| ADP-T | Adaptive+Adaptive (tied) | 19.79 | 20.51 | 30 | 246.9M |
- 適応ソフトマックスと併用した場合、適応入力埋め込みは入力/出力パラメータ数を最大61%削減する。
- 適応入力は文字入力CNNベースラインよりも2倍以上速く訓練されつつ、精度が高い。
- Wikitext-103 では最良モデルの困惑度が18.7となり、従来の最良値から10.5の改善。
- Billion Word では最良モデルの困惑度が23.02となり、先行結果を大きく上回る改善。
- ADP-T(結合適応入力と適応出力) は同等の訓練速度で最も高い精度を達成し、コンパクトなサブワードモデルと同等の速度。
- 希少語の正則化はWikitext-103における適応ソフトマックスの性能を改善する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。