QUICK REVIEW

[論文レビュー] Pointer Sentinel Mixture Models

Stephen Merity, Caiming Xiong|arXiv (Cornell University)|Sep 26, 2016

Natural Language Processing Techniques参考文献 17被引用数 481

ひとこと要約

この論文は、ソフトマックス語彙予測と最近の文脈からコピーするポインタ機構を組み合わせたハイブリッドポインタ-セントリネル混合モデルを提案し、Penn Treebankで最先端の perplexity を達成しながらはるかに少ないパラメータ数を実現し、WikiText を新しい長い文脈の言語モデリング評価指標として導入します。

ABSTRACT

Recent neural network sequence models with softmax classifiers have achieved their best language modeling performance only with very large hidden states and large vocabularies. Even then they struggle to predict rare or unseen words even if the context makes the prediction unambiguous. We introduce the pointer sentinel mixture architecture for neural sequence models which has the ability to either reproduce a word from the recent context or produce a word from a standard softmax classifier. Our pointer sentinel-LSTM model achieves state of the art language modeling performance on the Penn Treebank (70.9 perplexity) while using far fewer parameters than a standard softmax LSTM. In order to evaluate how well language models can exploit longer contexts and deal with more realistic vocabularies and larger corpora we also introduce the freely available WikiText corpus.

研究の動機と目的

限られた隠れ状態容量で、言語モデルが希少語や未知語を予測する難しさを動機づけ、対処する。
ソフトマックス語彙の語を出力するか、ポインタネットワークを介して最近の文脈から語をコピーするかを emit できる混合アーキテクチャを提案する。
ポインタとソフトマックス成分の使用をゲート g で結ぶセンチネルベースのゲーティング機構を導入する。
長距離依存性と現実的な語彙を評価する新しい大規模言語モデリングデータセット（WikiText）を共有する。
比較的同等のモデルと比較してパラメータ数を削減しつつPenn Treebank で最先端の perplexity を示す。

提案手法

標準的な語予測のための softmax-RNN コンポーネントを定義する。
過去の隠れ状態のウィンドウに対する注意を用いて入力から語をコピーするポインタネットワーク成分を開発する。
ポインタとソフトマックス予測をゲート g で組み合わせるポインタセントリネル混合を作成する。ゲート g はセンチネル項を含む augment された注意ベクトルから導出される。
ポインタが次の語を自信をもって一致させられない場合にソフトマックスへバックオフするための注意にセンチネル値を導入する。
混合に適応したクロスエントロピー損失で訓練し、バックプロパゲーションを通じてポインタ窓内の古い RNN 出力を再生成する。
Penn Treebank および WikiText データセットで評価し、従来の LSTM ベースの言語モデルとの詳細な比較を行う。

実験結果

リサーチクエスチョン

RQ1ポインタ機構と従来のソフトマックス出力を組み合わせたハイブリッドモデルは、希少語や OoV 語に対して言語モデリングを改善できるか。
RQ2センチネルベースのゲーティング機構を組み込むことで、パラメータの効果的な共有とポインタとソフトマックス成分間の意思決定の改善を可能にするか。
RQ3長い文脈データセット（WikiText）で、標準的な LSTM と比較してポインタセントリネル混合はどのように機能するか。
RQ4ポインタ窓長さ L および訓練戦略（BPTT）が長距離依存性の学習に与える影響はどの程度か。

主な発見

モデル	パラメータ	検証	テスト
Mikolov & Zweig (2012) - KN-5	2M ‡	-	141.2
Mikolov & Zweig (2012) - KN5 + cache	2M ‡	-	125.7
Mikolov & Zweig (2012) - RNN	6M ‡	-	124.7
Mikolov & Zweig (2012) - RNN-LDA	7M ‡	-	113.7
Mikolov & Zweig (2012) - RNN-LDA + KN-5 + cache	9M ‡	-	92.0
Pascanu et al. (2013a) - Deep RNN	6M	-	107.5
Cheng et al. (2014) - Sum-Prod Net	5M ‡	-	100.0
Zaremba et al. (2014) - LSTM (medium)	20M	86.2	82.7
Zaremba et al. (2014) - LSTM (large)	66M	82.2	78.4
Gal (2015) - Variational LSTM (medium, untied)	20M	81.9±0.2	79.7±0.1
Gal (2015) - Variational LSTM (medium, untied, MC)	20M	-	78.6±0.1
Gal (2015) - Variational LSTM (large, untied)	66M	77.9±0.3	75.2±0.2
Gal (2015) - Variational LSTM (large, untied, MC)	66M	-	73.4±0.0
Kim et al. (2016) - CharCNN	19M	-	78.9
Zilly et al. (2016) - Variational RHN	32M	72.8	71.3
Zoneout + Variational LSTM (medium)	20M	84.4	80.6
Pointer Sentinel-LSTM (medium)	21M	72.4	70.9

ポインタセントリネル LSTM は、Penn Treebank で最先端の perplexity（70.9）を達成し、従来の大規模 LSTM よりもはるかに少ないパラメータで実現した。
Penn Treebank で、ミディアムポインタセントリネル LSTM は大規模 LSTM 変種を上回り、パラメータは概して三分の一程度である。
WikiText-2 では、ポインタセントリネル LSTM が変分型 LSTM のベースラインを大幅に上回る（検証 perplexity: 84.8 vs. 101.7; テスト perplexity: 80.8 vs. 96.3）。
ポインタ成分が最近の文脈から語をコピーできるようにすることで希少語の取り扱いが改善され、語の頻度が低下するほど顕著な利得が現れる。
センチネルベースのゲーティングは、ポインタが語と自信を持って一致できない場合にソフトマックスへ効果的にバックオフできるようにし、堅牢性と性能を向上させる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。