QUICK REVIEW

[論文レビュー] A Survey on Neural Network Language Models

Kun Jing, Jungang Xu|arXiv (Cornell University)|Jun 9, 2019

Natural Language Processing Techniques参考文献 35被引用数 44

ひとこと要約

本論文はニューラルネットワーク言語モデル（NNLMs）を概説し、古典的な NNLM アーキテクチャ（FFNN、R、LSTM-RNNLM）を要約し、改善点、コーパス、ツールキット、今後の研究動向をレビューします。

ABSTRACT

As the core component of Natural Language Processing (NLP) system, Language Model (LM) can provide word representation and probability indication of word sequences. Neural Network Language Models (NNLMs) overcome the curse of dimensionality and improve the performance of traditional LMs. A survey on NNLMs is performed in this paper. The structure of classic NNLMs is described firstly, and then some major improvements are introduced and analyzed. We summarize and compare corpora and toolkits of NNLMs. Further, some research directions of NNLMs are discussed.

研究の動機と目的

従来の n-gram 言語モデルから NNLM への移行と分散表現の動機づけを説明する。
古典的な NNLM アーキテクチャとそれらが n-gram に対して持つ利点を要約する。
NNLM におけるパープレキシティの低減、訓練効率、文脈モデル化の技術をレビューする。
NNLM の研究開発に用いられるコーパスとツールキットについて論じる。
NNLM 研究の未解決課題と今後の方向性を特定する。

提案手法

古典的な NNLM アーキテクチャ（FFNNLM、RNNLM、LSTM-RNNLM）とそれらの数学的定式化を説明する。
Character-aware モデル、factored モデル、双方向モデル、キャッシング、アテンションなどの改善を要約する。
大規模語彙に対する高速化技術（階層的ソフトマックス、サンプリングベースの近似、自己正規化など）について論じる。
NNLM 研究で用いられるコーパスとツールキットをレビューする。
NNLM の今後の方向性と評価上の考慮事項を概説する。

実験結果

リサーチクエスチョン

RQ1NNLM の中核となるアーキテクチャは何で、それらは従来の n-gram LM とどう比較されるか？
RQ2NNLM においてパープレキシティ低減と訓練コスト削減のために提案された改善は何か？
RQ3コーパスとツールキットは NNLM の研究とベンチマーキングをどのように形作るのか？
RQ4NNLM 開発における特定された今後の方向性と課題は何か？
RQ5アテンション機構とトランスフォーマーは NNLM の進化にどのような影響を与えるのか？

主な発見

FFNNLMs は次元の呪いを克服するために分散語彙表現を学習しますが、Limitations には固定された文脈ウィンドウと高いパラメータ数が挙げられます。
RNNLMs、特に LSTM-RNNLMs は FFNNLMs や従来の LM よりも良いパープレキシティを達成し、LSTM は長期依存性に対応します。
Character-aware および factored モデル、双方向モデル、キャッシング、アテンション機構は、モデリング、OOV の処理、文脈の活用、効率性の改善をもたらします。
大規模語彙では訓練効率が依然として課題であり、階層的ソフトマックスやサンプリングベースのアプローチがさまざまなトレードオフで速度向上を提供します。
NNLM 研究にはさまざまなコーパスとツールキットが存在しますが、標準化と統一ベンチマークはまだ必要とされています。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。