Skip to main content
QUICK REVIEW

[論文レビュー] Data Noising as Smoothing in Neural Network Language Models

Ziang Xie, Sida I. Wang|arXiv (Cornell University)|Mar 7, 2017
Topic Modeling参考文献 23被引用数 173
ひとこと要約

本論文は、ニューラル言語モデルにおける入力データノイズ付与を、n-gramモデルの平滑化と結びつけ、補間とKneser-Ney平滑化に対応するノイズ付与スキームを導出し、言語モデリングと機械翻訳における正則化効果を実証する。

ABSTRACT

Data noising is an effective technique for regularizing neural network models. While noising is widely adopted in application domains such as vision and speech, commonly used noising primitives have not been developed for discrete sequence-level settings such as language modeling. In this paper, we derive a connection between input noising in neural network language models and smoothing in $n$-gram models. Using this connection, we draw upon ideas from smoothing to develop effective noising schemes. We demonstrate performance gains when applying the proposed schemes to language modeling and machine translation. Finally, we provide empirical analysis validating the relationship between noising and smoothing.

研究の動機と目的

  • ニューラル系列モデルにおけるデータ拡張を動機づけることで、言語モデリングにおけるデータのスパース性に対処する。
  • 入力ノイズ付与と古典的なn-gram平滑化法との関係を形式化する。
  • 補間と高度な平滑化(例:Kneser-Ney)を模倣するノイズ付与スキームを開発する。

提案手法

  • 最大尤度で訓練されたRNN/LSTM言語モデルをモデル化する。
  • 入力文脈に対するユニグラムおよびブランクノイズ付与スキームを導入する。
  • ノイズ下の期待疑似カウントが高次・低次モデル間の補間に対応することを示す。
  • 割引とKneser-Ney平滑化に触発された適応ノイズ付与確率とより賢い提案分布を提案する。
  • 入力と出力の両方をノイズ化することで、エンコーダ-デコーダ/seq2seq設定へのノイズ付与を拡張する。

実験結果

リサーチクエスチョン

  • RQ1入力データのノイズ付与は、n-gram言語モデルで用いられる平滑化技法をどのように近似できるか。
  • RQ2適応的なノイズ付与とより良い提案分布は、ニューラル系列モデルの正則化を改善できるか。
  • RQ3ノイズ付与ベースのスキームは、言語モデリングと機械翻訳での利得へ結びつくか。

主な発見

  • ユニグラムノイズ付与は、より高次および低次モデルの混合(補間)に相当するp(xt|xt-1)を生じさせる。
  • ブランクノイズ付与とユニグラムノイズ付与は、n-gramモデルの補間平滑化の類推に相当する。
  • 適応的ディスカウントは、ガンマ値の範囲にわたりノイズ付与の効果を改善する。
  • ノイズを付けたモデルは、非ノイズモデルよりも低次分布(均一分布やユニグラム頻度)に近いソフトマックス分布を生み出し、平滑化の類推を検証する。
  • 機械翻訳では、ブランク、ユニグラム、およびビグラムKneser-Neyノイズ付与が、ベースラインのドロップアウトだけよりもパフォーマンス(BLEUスコアの改善)を向上させる。
  • ペンツーリストン(Penn Treebank)とText8の実験では、ビグラムKNノイズ付与で困惑度が改善され、MTではベースライン比約+0.7から+1.4程度のBLEU向上を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。