[論文レビュー] Efficient softmax approximation for GPUs
アダプティブ・ソフトマックスはGPU最適化された2クラスタ階層ソフトマックスを提供し、非常に大規模な語彙でのトレーニングを加速します。完全なソフトマックスに近いパープレキシティで大幅なスピードアップを実現します。
We propose an approximate strategy to efficiently train neural network based language models over very large vocabularies. Our approach, called adaptive softmax, circumvents the linear dependency on the vocabulary size by exploiting the unbalanced word distribution to form clusters that explicitly minimize the expectation of computation time. Our approach further reduces the computational time by exploiting the specificities of modern architectures and matrix-matrix vector operations, making it particularly suited for graphical processing units. Our experiments carried out on standard benchmarks, such as EuroParl and One Billion Word, show that our approach brings a large gain in efficiency over standard approximations while achieving an accuracy close to that of the full softmax. The code of our method is available at https://github.com/facebookresearch/adaptive-softmax.
研究の動機と目的
- GPU向けの非常に大規模な語彙での効率的な言語モデリングを動機づける。
- 語彙頻度分布に基づいて計算時間を最小化するアダプティブ・ソフトマックスを導入する。
- 標準ベンチマークで実証的なスピードアップと精度の維持を示す。
提案手法
- GPUでの行列積計算の計算時間モデルを定義する。
- 語彙をヘッド(頻度の高い語)とテイル(希少語)に不均衡なサイズで分割する。
- ヘッドクラスタをルートに保持して高速アクセスを確保し、プロジェクションを用いてテイル分類器の容量を削減する。
- 複数のクラスタへ一般化し、動的計画法アプローチでクラスタサイズを最適化する。
- Text8、Europarl、One Billion Wordでベースラインと対して経験的に評価する。
実験結果
リサーチクエスチョン
- RQ1GPU対応の適応型階層型ソフトマックスは、計算時間を削減しつつ完全なソフトマックスを近似できるか?
- RQ2精度を保ちつつ期待計算時間を最小化するために語クラスタのサイズをどう設定すべきか?
- RQ3アダプティブソフトマックスは、パープレキシティとトレーニング速度の点で他の大語彙戦略とどう比較されるか?
- RQ4根元で頻出語のショートリストを使用することと、それらを葉として配置することの影響は?
- RQ5One Billion Word のような非常に大規模なコーパスに対してアプローチはスケールするか?
主な発見
| モデル | テストパープレキシティ | t(分) |
|---|---|---|
| Full softmax | 144 | 83 |
| Sampling | 166 | 41 |
| HSM (freq) | 166 | 34 |
| HSM (sim) | 155 | 41 |
| D-softmax | 195 | 53 |
| D-softmax [*] | 147 | 54 |
| Ours | 147 | 30 |
- アダプティブソフトマックスは、大規模コーパスで完全なソフトマックスより2倍から10倍の速度向上を達成し、パープレキシティは完全モデルにほぼ近い状態を維持。
- 2クラスタのヘッド-テイル配置は、例で5倍超の顕著な速度アップを生みつつ、精度の損失は最小限。
- 少数のクラスタ(2-5)を用いると速度とパープレキシティのトレードオフが有利であり、クラスタ数を増やすと利得は減少。
- 投影によって尾部容量を削減し、希少語の学習効率を完全な隠れ次元使用なしで維持。
- Text8では、最速である一方、パープレキシティはフルソフトマックスに3ポイント以内まで近づく;EuroparlとOne Billion Wordでは、同等のパープレキシティで複数ベースラインより速度で上回る。
- 彼らの手法はOne Billion Wordで5エポック後に43.9のパープレキシティを達成し、1台のGPUで3日未満、より大きなマルチGPU構成と競合する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。