Skip to main content
QUICK REVIEW

[論文レビュー] Representation Degeneration Problem in Training Natural Language Generation Models

Jun Gao, Di He|arXiv (Cornell University)|Jul 28, 2019
Topic Modeling被引用数 53
ひとこと要約

本論文は、ウェイトタイを用いた尤度ベースの学習時に、語彙埋め込みが狭い円錐状にクラスタ化する表現の退化問題を特定し、埋め込み空間を広げるMLE-CosReg正規化を提案して、言語モデリングと機械翻訳の性能を改善する。

ABSTRACT

We study an interesting problem in training neural network-based models for natural language generation tasks, which we call the \emph{representation degeneration problem}. We observe that when training a model for natural language generation tasks through likelihood maximization with the weight tying trick, especially with big training datasets, most of the learnt word embeddings tend to degenerate and be distributed into a narrow cone, which largely limits the representation power of word embeddings. We analyze the conditions and causes of this problem and propose a novel regularization method to address it. Experiments on language modeling and machine translation show that our method can largely mitigate the representation degeneration problem and achieve better performance than baseline algorithms.

研究の動機と目的

  • 語彙埋め込みがNLGタスクでの尤度学習とウェイトタイにより退化する原因を理解する。
  • 隠れ状態の幾何学と退化の関係、特に低頻度語について分析する。
  • 埋め込み空間を拡大しモデルの表現力を向上させる正則化手法を提案する。
  • 言語モデリングとニューラル機械翻訳のベンチマークで有効性を示す。
  • 観察された退化と正則化効果に対する理論的正当性を提供する。

提案手法

  • Word2Vec、分類様 Softmax、 vanilla Transformer における埋め込み空間の経験的可視化。
  • 退化と隠れ状態の凸結合壊の関係、全方向負方向の存在に関する理論的分析。
  • 稀に現れる語への分析を拡張し、同様の最適化挙動を示すことを示す。
  • MLE-CosRegを導入:正規化項として正規化された語彙埋め込みのペアワイズコサイン類似度を最小化し、埋め込み円錐を広げる。
  • 通常の尤度損失に γ * (1/N^2) sum_{i!=j} \, hat{w_i}^T hat{w_j} を追加して学習する(hat{w}=w/||w||)。
  • Transformer を用いたアーキテクチャで言語モデリング(WikiText-2)と機械翻訳(WMT 2014 英語↔ドイツ語)で実験を行う。

実験結果

リサーチクエスチョン

  • RQ1NLGモデルのウェイトタイで訓練するとき、語彙埋め込みが退化する原因は何か?
  • RQ2隠れ状態の幾何学と原点を含む凸結合が退化に与える影響はどうなるか?
  • RQ3埋め込み同士のコサイン類似度を低減させる正則化は退化を緩和し性能を改善できるか?
  • RQ4提案手法はデータセット全体で言語モデリングの困惑度と翻訳の BLEU スコアの両方を改善するか?
  • RQ5正則化子を用いて学習した埋め込みは、可視化や特異値解析を通じて表現力の多様性が高まるか?

主な発見

モデルパラメータ数検証テスト備考
2層スキップ接続LSTM(結合)24M--言語モデリングのベースライン(AWDではない)
AWD-LSTM(ファインチューニングなし)24M--言語モデリングのベースライン
AWD-LSTM(結合後ファインチューニング)24M--結合後のファインチューニングを行う言語モデリングのベースライン
AWD-LSTM(連続キャッシュポインタ)24M--キャッシュを用いた言語モデリング
MLE-CosReg(ファインチューニングなし)24M--CosRegを用いた言語モデリング、ファインチューニングなし
MLE-CosReg(結合後ファインチューニング)24M--CosRegを用いた言語モデリング、ファインチューニングあり
MLE-CosReg + 連続キャッシュポインタ24M--CosRegとキャッシュを用いた言語モデリング
英語→ドイツ語: ConvS2S (Gehring et al., 2017)---BLEUベースライン
英語→ドイツ語: DSL (Xia et al., 2017b)---BLEUベースライン
英語→ドイツ語: Base Transformer (Vaswani et al., 2017)---BLEU 基本 Transformer
英語→ドイツ語: Dual-NMT (Xia et al., 2017a)---BLEU alternative NMT
英語→ドイツ語: Base Transformer + MLE-CosReg---Base Transformer BLEU 28.38 における MLE-CosReg
英語→ドイツ語: Big Transformer (Vaswani et al., 2017)---BLEU Big Transformer baseline 28.40
英語→ドイツ語: Big Transformer + MLE-CosReg---BLEU Big Transformer + CosReg 28.94
英語→ドイツ語: Base Transformer + MLE-CosReg---BLEU Base Transformer + CosReg 31.93
ドイツ語→英語: ConvS2S (Gehring et al., 2017)---BLEUベースライン
ドイツ語→英語: DSL (Xia et al., 2017b)---BLEU DSL 20.81
ドイツ語→英語: Base Transformer (Vaswani et al., 2017)---BLEU base Transformer 27.30
ドイツ語→英語: Dual-NMT (Xia et al., 2017a)---BLEU Dual-NMT 22.14
ドイツ語→英語: Base Transformer + MLE-CosReg---BLEU Base Transformer + CosReg 31.93
ドイツ語→英語: Big Transformer (Vaswani et al., 2017)---BLEU Big Transformer 28.40
ドイツ語→英語: Big Transformer + MLE-CosReg---BLEU Big Transformer + CosReg 28.94
  • ウェイトタイがあるNLGモデルの語彙埋め込みは、ほとんどの語のペア間で正のコサイン類似度を持つ狭い円錐状にクラスタ化する傾向がある。
  • 退化は隠れ状態の構造と関係があり、隠れ状態の凸結合が原点を含まない場合、均一に負の方向が存在して rare語の埋め込みを最適化の過程で無限大へ押しやる。
  • コサイン正規化項(MLE-CosReg)は埋め込み空間の開口を広げ、埋め込み間のコサイン類似度を低減し表現力を改善する。
  • MLE-CosRegはWikiText-2の困惑度をベースラインや設定に応じて0.8/1.7/2.0ポイント改善する。
  • MLE-CosRegは英語↔ドイツ語とドイツ語↔英語のBLEUを、それぞれベースとなるTransformer設定で1.08および0.93ポイント改善し、Big Transformerを使用すると追加で0.54ポイントの利得がある。
  • MLE-CosRegにより学習された埋め込みは特異値分布がより均一になり、2D射影がより分散して表示され、表現の多様性が高まることを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。