QUICK REVIEW

[論文レビュー] Larger-Context Language Modelling

Tian Wang, Kyunghyun Cho|arXiv (Cornell University)|Nov 11, 2015

Topic Modeling参考文献 31被引用数 46

ひとこと要約

本稿では、注意メカニズムを用いた文の符号化と遅延統合機構を用いて、話題レベルの文脈を再帰的ニューラルネットワーク言語モデルに統合することで、より大きな文脈を考慮する言語モデルを提案する。この手法により、特に名詞、形容詞、動詞といったコンテンツ語の perplexity が著しく低下し、標準的な自己回帰モデルと比較して文書レベルのトピックモデリングが向上する。

ABSTRACT

In this work, we propose a novel method to incorporate corpus-level discourse information into language modelling. We call this larger-context language model. We introduce a late fusion approach to a recurrent language model based on long short-term memory units (LSTM), which helps the LSTM unit keep intra-sentence dependencies and inter-sentence dependencies separate from each other. Through the evaluation on three corpora (IMDB, BBC, and PennTree Bank), we demon- strate that the proposed model improves perplexity significantly. In the experi- ments, we evaluate the proposed approach while varying the number of context sentences and observe that the proposed late fusion is superior to the usual way of incorporating additional inputs to the LSTM. By analyzing the trained larger- context language model, we discover that content words, including nouns, adjec- tives and verbs, benefit most from an increasing number of context sentences. This analysis suggests that larger-context language model improves the unconditional language model by capturing the theme of a document better and more easily.

研究の動機と目的

文の依存関係を超えて、コーパスレベルの話題的文脈を組み込むことで、ニューラル言語モデリングを改善すること。
標準的なRNN言語モデルが文の間の相互独立性を仮定しているという限界を解消すること。
より大きな文脈が perplexity を改善するかどうか、およびコンテンツ語が機能語よりもより大きな恩恵を受けるかどうかを調査すること。
LSTMユニットに文脈を統合する際の遅延統合と早期統合の戦略を比較すること。
文脈長がモデル性能および品詞カテゴリごとの語の予測可能性に与える影響を分析すること。

提案手法

文脈ベクトルを各時刻でLSTM隠れ状態に連結する遅延統合アプローチを提案。入力ゲートに事前に文脈を入力する早期統合とは異なり、時刻ごとに文脈を統合する。
複数の文脈文を1つの文脈ベクトルに圧縮するために、bag-of-words (BoW) または順序付きBoW表現に注意メカニズムを適用する。
文脈文に対する注意メカニズムを用いて、その重要性を動的に重み付けし、文脈表現の質を向上させる。
次単語予測の perplexity を最小化するために、クロスエントロピー損失を用いてエンドツーエンドでモデルを学習する。
文内および文間の依存関係を別々に処理するため、遅延統合を介した修正されたLSTMアーキテクチャを採用する。
Stanford POSタガーを用いて語を分類し、品詞タグごとの perplexity を算出することで分析を行う。

実験結果

リサーチクエスチョン

RQ1複数の直前の文から得られる話題レベルの文脈を統合することで、標準的な自己回帰モデルと比較して言語モデルの perplexity が向上するか？
RQ2LSTM隠れ状態への文脈ベクトルの遅延統合は、早期統合に比べて性能および一般化能力に優れているか？
RQ3コンテンツ語（名詞、形容詞、動詞）は、機能語（代名詞、限定語など）と比較して、より大きな文脈からより大きな恩恵を受けるか？
RQ4文脈文の数がモデル性能および語の予測可能性に与える影響は何か？
RQ5注意メカニズムは、長大な文脈シーケンスを意味のあるベクトルに効果的に圧縮できるか？

主な発見

標準的なRNN言語モデルと比較して、IMDB、BBC、Penn Treebankの各データセットにおいて、より大きな文脈を考慮する言語モデルが、単語ごとの perplexity を著しく低減した。
遅延統合は、全データセットおよび全文脈長において早期統合を上回る性能を示し、話題的文脈を統合する有効性を裏付けた。
コンテンツ語（名詞、形容詞、動詞）は、文脈長が延長するにつれて予測可能性が著しく向上（perplexityが最小）した。
代名詞（PRP）、限定語（DT）、並列接続詞（CC）などの機能語は、文脈が増えるにつれて perplexity がわずかに悪化した。これは、モデル容量のトレードオフを示している。
トピック的依存関係をより良く捉えることで、文書レベルの整合性が向上し、特にオープンクラスのコンテンツ豊富な語の性能が向上した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。