[論文レビュー] Improving Neural Language Modeling via Adversarial Training
adversarial MLE 訓練を導入し、出力語彙の adversarial 摂動を softmax に追加して一般化を改善し、PTB と WT2 で新しい state-of-the-art perplexities を達成し、Transformer ベースの MT BLEU スコアを向上させる。
Recently, substantial progress has been made in language modeling by using deep neural networks. However, in practice, large scale neural language models have been shown to be prone to overfitting. In this paper, we present a simple yet highly effective adversarial training mechanism for regularizing neural language models. The idea is to introduce adversarial noise to the output embedding layer while training the models. We show that the optimal adversarial noise yields a simple closed-form solution, thus allowing us to develop a simple and time efficient algorithm. Theoretically, we show that our adversarial mechanism effectively encourages the diversity of the embedding vectors, helping to increase the robustness of models. Empirically, we show that our method improves on the single model state-of-the-art results for language modeling on Penn Treebank (PTB) and Wikitext-2, achieving test perplexity scores of 46.01 and 38.07, respectively. When applied to machine translation, our method improves over various transformer-based translation baselines in BLEU scores on the WMT14 English-German and IWSLT14 German-English tasks.
研究の動機と目的
- 大規模ニューラル言語モデルにおける過学習を抑制するための正則化を動機付ける。
- 出力埋め込みの softmax に焦点を当てた単純な adversarial トレーニング機構を提案する。
- 高速なトレーニングアルゴリズムを可能にする最適 adversarial 摂動の閉形式解を導出する。
- 本手法が埋め込みの多様性とロバスト性を理論的に促進することを示す。
- 言語モデリングのベンチマーク(PTB、WT2、WT103)および機械翻訳(WMT14 En-De、IWSLT14 De-En)で改善を経験的に検証する。
提案手法
- モデルパラメータに対する対数尤度を最大化しつつ、出力埋め込みに適用される adversarial 摂動を最小化することで adversarial objective を最適化する(Eq. 5)。
- ターゲット語ごとの最適摂動を閉形式 δ_i* = -epsilon h / ||h|| として計算し、AdvSoft_epsilon はロジットを -epsilon||h|| だけ移動させる(Eq. 6–7)。
- 標準的な勾配上昇で adversarial objective を更新し、閉形式解を用いて delta を更新することで θ, w を逐次更新する。
- 入力埋め込みと出力埋め込みの結合(ウェイト結合)を行い、epsilon は ε = alpha * ||w_i|| の形でハイパーパラメータ alpha を用いて適応させる。
- 対数出力埋め込み間の多様性を強制する adversarial メカニズム(epsilon-認識性、距離分離)を理論的に示す。
- 言語モデリングの PTB、WT2、WT103 および翻訳の WMT2014 En-De、IWSLT2014 De-En を対象に、 AWD-LSTM や Transformer のような基本アーキテクチャを用い、softmax を AdvSoft に置換して評価する。
実験結果
リサーチクエスチョン
- RQ1出力埋め込みへの adversarial 摂動はニューラル言語モデルの一般化を改善するか?
- RQ2閉形式の adversarial 摂動は追加パラメータなしで簡潔で効率的な正則化をもたらすか?
- RQ3この手法は埋め込みの多様性とロバスト性を促進し、 perplexity や BLEU にどのような影響を与えるか?
- RQ4言語モデリングとニューラル機械翻訳の両方に適用した場合、adversarial MLE はどう機能するか?
主な発見
| Dataset | Model | Params | Valid Perplexity | Test Perplexity |
|---|---|---|---|---|
| Penn Treebank (PTB) | AWD-LSTM + Ours | 24M | 57.15 | 55.01 |
| Penn Treebank (PTB) | AWD-LSTM + MoS + Ours | 22M | 54.98 | 52.87 |
| Penn Treebank (PTB) | AWD-LSTM + MoS + Partial Shuffled + Ours | 22M | 46.63 | 46.01 |
| Wikitext-2 (WT2) | AWD-LSTM + Ours | 24M | 49.31 | 48.72 |
| Wikitext-2 (WT2) | AWD-LSTM + MoS + Ours | 22M | 47.15 | 46.52 |
| Wikitext-2 (WT2) | AWD-LSTM + MoS + Partial Shuffled + Ours | 22M | 46.63 | 46.01 |
| Wikitext-103 (WT103) | 4-layer QRNN (baseline) | 32.0 | 33.0 | – |
| Wikitext-103 (WT103) | 4-layer QRNN + Ours | 30.6 | 31.6 | – |
| Wikitext-103 (WT103) | 4-layer QRNN + Ours + Dynamic Eval | 27.2 | 28.0 | – |
- PTB (46.01) および WT2 (38.07) で新しい単一モデルの state-of-the-art perplexities を達成。
- WT103 では QRNN ベースラインを上回り、動的評価を用いてテスト perplexity が 28.0 に到達。
- 翻訳では Transformer ベースのベースラインが BLEU の向上を得る(En→De: 28.43/29.52; De→En: 33.61/35.18 が Small/Base 構成で)。
- AWD-LSTM、MoS、Partial Shuffled などと組み合わせた場合、PTB および WT2 全体で adversarial softmax がベースラインを上回る。
- 埋め込みの多様性が高まり、最近傍距離が大きく、特異成分の分布がより均一になり、PTB/WT2 実験で過学習が抑制されることを示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。