QUICK REVIEW

[論文レビュー] Learning to Create and Reuse Words in Open-Vocabulary Neural Language Modeling

Kazuya Kawakami, Chris Dyer|arXiv (Cornell University)|Apr 23, 2017

Topic Modeling参考文献 12被引用数 27

ひとこと要約

本稿では、動的かつ再利用可能な語の生成を可能にする学習可能でキャッシュ機構を備えた階層的文字レベルLSTM言語モデルを提案する。特に、固有名などの希少語の急増的使用を捉えることに特化している。モデルは標準ベンチマークおよび新規の多言語Wikipediaコーパスにおいて最先端のPerplexityを達成し、文字レベルのデコードまたはキャッシュされた過去のトークンから語を選択的に生成することで、長距離依存関係を効果的にモデル化したオープンボキャブラリー動的特性を実現している。

ABSTRACT

Fixed-vocabulary language models fail to account for one of the most characteristic statistical facts of natural language: the frequent creation and reuse of new word types. Although character-level language models offer a partial solution in that they can create word types not attested in the training corpus, they do not capture the "bursty" distribution of such words. In this paper, we augment a hierarchical LSTM language model that generates sequences of word tokens character by character with a caching mechanism that learns to reuse previously generated words. To validate our model we construct a new open-vocabulary language modeling corpus (the Multilingual Wikipedia Corpus, MWC) from comparable Wikipedia articles in 7 typologically diverse languages and demonstrate the effectiveness of our model across this range of languages.

研究の動機と目的

新規で希少な語が頻繁に生成されるオープンボキャブラリー設定において、固定ボキャブラリー言語モデルの限界を克服すること。
固有名を含む希少語の急増的再利用を、文字レベル言語モデルにキャッシュ機構を組み込むことでモデル化すること。
文字レベル生成と語レベル再利用を統合したアーキテクチャを構築し、LSTMを介して長距離依存関係を保持すること。
多様な語彙的・構造的特徴を示す言語にわたる性能を評価するため、新規の多言語コーパスを用いて評価すること。
キャッシュ機構が語の再利用に与える寄与を分析し、名前、数字、コンテンツ語などの特定の語種別にその好みがどうなるかを解明すること。

提案手法

モデルは、語を1文字ずつ生成する階層的LSTMを用い、語の文字列をLSTMで符号化してベクトル表現を生成する。
学習可能なLRUスタイルのキャッシュが、事前に生成された語表現を保存し、再生成ではなく過去のトークンからコピーするのを可能にする。
各生成ステップで、言語モデル（文字レベルLSTM）から語を生成するか、キャッシュから取得するかを確率的に決定し、学習中にこの決定を周辺化する。
キャッシュは語生成LSTMの隠れ状態によってインデックス付けされ、文脈に応じた過去に出現した語の検索が可能になる。
モデルはエンドツーエンドでクロスエントロピー損失を用いて学習され、キャッシュ機構が自己回帰的生成プロセスに統合されている。
7種類の語彙的・構造的に異なる言語の類似Wikipedia記事から構築された新規の多言語Wikipediaコーパス（MWC）を用いて、多言語的性能を評価した。

実験結果

リサーチクエスチョン

RQ1キャッシュ機構を備えた文字レベル言語モデルは、希少語や新規に生成された語の急増的再利用をどの程度効果的にモデル化できるか？
RQ2異なる言語において、キャッシュ機構は固有名とコンテンツ語や数字の間で、どの程度優先的に処理を行うか？
RQ3提案されたモデルは、オープンボキャブラリー設定において、標準の文字レベルおよび語レベル言語モデルを上回る性能を示すか？
RQ4キャッシュ機構は長距離依存関係のモデル化とPerplexity低減にどの程度寄与しているか？
RQ5モデルは、変動する屈曲的・表記的特徴を示す多様な言語に一般化できるか？

主な発見

提案されたHCLMにキャッシュを導入したモデルは、すべてのデータセットでベースラインHCLMおよび標準LSTMモデルを上回る低いPerplexityを達成しており、特にWikiText-2や多言語Wikipediaコーパスといったオープンボキャブラリーベンチマークで顕著な向上を示した。
キャッシュは主に、急増的特性が顕著な固有名の生成に使用されており、コンテンツ語や数字はより多くが文字レベル言語モデルから生成されている。
MWCでは、7種類の語彙的・構造的に異なる言語で一貫した性能向上を示し、言語的多様性に対するモデルの頑健性を確認した。
事後分析により、キャッシュ機構が語の再利用を効果的に学習していることが確認され、固有名はキャッシュから取得される確率が非常に高いことが分かった。
モデルは数字のキャッシュコピーを好まない傾向を示しており、これは数字が希少に再利用されることを学習した結果であり、実世界の語頻度パターンと整合的である。
語投影層を排除することで、標準の語レベルモデルよりもパラメータ数を削減したが、LSTMとキャッシュの組み合わせにより高い性能を維持している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。