QUICK REVIEW

[論文レビュー] Sharp Nearby, Fuzzy Far Away: How Neural Language Models Use Context

Urvashi Khandelwal, He He|arXiv (Cornell University)|May 12, 2018

Topic Modeling参考文献 15被引用数 62

ひとこと要約

論文はLSTM言語モデルが文脈情報をどのように利用するかを分析し、効果的な文脈が約200トークンであることを発見した。近傍の文脈は直前の文だけで順序が重要で、遠い文脈は単語のコピーを助けるニューラルキャッシュによって粗い意味場を形成する。

ABSTRACT

We know very little about how neural language models (LM) use prior linguistic context. In this paper, we investigate the role of context in an LSTM LM, through ablation studies. Specifically, we analyze the increase in perplexity when prior context words are shuffled, replaced, or dropped. On two standard datasets, Penn Treebank and WikiText-2, we find that the model is capable of using about 200 tokens of context on average, but sharply distinguishes nearby context (recent 50 tokens) from the distant history. The model is highly sensitive to the order of words within the most recent sentence, but ignores word order in the long-range context (beyond 50 tokens), suggesting the distant past is modeled only as a rough semantic field or topic. We further find that the neural caching model (Grave et al., 2017b) especially helps the LSTM to copy words from within this distant context. Overall, our analysis not only provides a better understanding of how neural LMs use their context, but also sheds light on recent success from cache-based models.

研究の動機と目的

LSTM言語モデルが実際に有効に利用する前の文脈トークン数を決定する。
LSTM言語モデルにおいて近接文脈と長距離文脈がどのように表現されるかを区別する。
文脈の異なる領域における語順と語の同一性の影響を評価する。
ニューラルキャッシュのコピー機構が遠い文脈を活用するのにどのように役立つかを評価する。

提案手法

テスト時に前の文脈を撹乱してアブレーション実験を行う（切り捨て、シャッフル、置換、削除）。
PTBとWikiText-2でニューラルキャッシュあり/なしで訓練された標準的なLSTM言語モデルを使用する。
摂動ごとにパープレキシティ/NLLを用いて性能を比較する。
語種（内容語 vs. 機能語）および品詞カテゴリを分析して文脈依存性を確認する。
近傍文脈と遠い文脈からのコピーに対する影響を測定するためにニューラルキャッシュを組み込む。

実験結果

リサーチクエスチョン

RQ1ニューラルLMは事前の文脈を実際にどれくらいのトークン数使用するか（トークン単位）?
RQ2近接文脈と長距離文脈はLSTMの予測に異なる寄与をするのか？
RQ3近傍と遠い文脈における予測に語順はどのように影響するか？
RQ4コピー機構（ニューラルキャッシュ）は遠い文脈をより効果的に活用するのを助けるか？

主な発見

データセット	# トークン数（Dev）	# トークン数（Test）	平均文長（Dev）	平均文長（Test）	キャッシュなしのパープレキシティ（Dev）	キャッシュなしのパープレキシティ（Test）	キャッシュなしのパープレキシティ（Dev）	キャッシュなしのパープレキシティ（Test）
PTB	73,760	82,430	20.9	20.9	59.07	56.89	59.07	56.89
Wiki	217,646	245,569	23.7	22.6	67.29	64.51	67.29	64.51

LSTMsは平均して約200トークンの文脈を効果的に使用する（PTBとWikiText-2）。
語順は直近のおよそ20トークン内でのみ重要であり、約50トークン以降はグローバルな語順効果が消える。これは遠い語の概略的な意味表現を示している。
内容語は機能語より多くの文脈を必要とし、出現頻度の低い語は頻度の高い語よりも多くの文脈を必要とする。
ニューラルキャッシュは長距離文脈からのコピーを著しく改善し、特に遠距離の文脈からのみコピーできる語に対して効果的である一方、履歴に現れない語には時に悪影響を及ぼす。
ターゲット語を他のトークンに置換することは、近傍文脈からのコピー語を削除するよりも悪影響を及ぼすことが多く、近傍文脈コピーは正確な出現に依存することを示唆している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。