Skip to main content
QUICK REVIEW

[論文レビュー] Improving Neural Language Models with a Continuous Cache

Édouard Grave, Armand Joulin|arXiv (Cornell University)|Dec 13, 2016
Topic Modeling被引用数 98
ひとこと要約

この論文は、過去の隠れ状態の軽量な連続キャッシュをニューラル言語モデルに追加し、再訓練なしで最近の文脈へのオンライン適応を可能にし、LAMBADAを含む複数のデータセットで perplexity の顕著な向上を示す。

ABSTRACT

We propose an extension to neural network language models to adapt their prediction to the recent history. Our model is a simplified version of memory augmented networks, which stores past hidden activations as memory and accesses them through a dot product with the current hidden activation. This mechanism is very efficient and scales to very large memory sizes. We also draw a link between the use of external memory in neural network and cache models used with count based language models. We demonstrate on several language model datasets that our approach performs significantly better than recent memory augmented networks.

研究の動機と目的

  • 最近の歴史に適応する必要性を動機づける。
  • 過去の隠れ活性化を保存し、ドット積照合によって予測を取得する軽量なニューラ cach[e] を提案する。
  • 事前学習済み LM の上にキャッシュを追加してもコストが少なく、メモリ変換器の訓練なしで実現できることを示す。
  • 複数の言語モデリングベンチマーク上でアプローチを評価し、 perplexity の改善を定量化する。

提案手法

  • 最近の隠れ状態 h_i と対応する次の語 x_{i+1} をメモリエントリ (h_i, x_{i+1}) として格納する。
  • p_cache(w | h_{1..t}, x_{1..t}) を、格納されたキー h_i に対するドット積に基づくルックアップで計算し、鋭さを制御する温度様 parameter theta を用いる。
  • 最終予測を、線形補間 p(w|h_{1..t},x_{1..t}) = (1-λ)p_vocab(w|h_t) + λ p_cache(w|h_{1..t},x_{1..t}) または語彙とキャッシュエントリ全体に対するグローバルソフトマックスで定義し、alpha でキャッシュ重みを制御する。
  • ベースのリカレント LM を通常通り訓練する。テスト時にのみキャッシュを適用し、theta および alpha/λ を検証データ上で調整する。

実験結果

リサーチクエスチョン

  • RQ1事前訓練済みのニューラル LM に再訓練なしで連続ニューラルキャッシュを追加すると語彷徨は改善されるか。
  • RQ2キャッシュサイズが小規模から大規模データセットで perplexity にどのように影響するか。
  • RQ3キャッシュとベース LM の予測を結合する際、線形補間はグローバル正規化と比べてどうなるか。
  • RQ4大規模なキャッシュ(数千エントリ)を実用的な計算コストで使用できるか。

主な発見

  • ニューラルキャッシュは、ベースラインとメモリ増強ネットに対して複数のデータセットで perplexity を改善する。
  • Penn Tree Bank では、ニューラルキャッシュを用いた線形補間はテスト perplexity が 72.1、ベースが 86.9、他の方法での最良補間が 74.6。
  • wikitext2 では、ニューラルキャッシュはサイズ 100 で 81.6、サイズ 2,000 で 68.9 の perplexity を達成し、ベースの LSTM および小さなキャッシュよりも優れていた。
  • wikitext103 では、大規模キャッシュサイズのニューラルキャッシュが 40.8 の perplexity を達成(サイズ 2,000)。
  • Lambada データセットでは、ニューラルキャッシュは LSTM ベースラインを大きく上回る性能を示し、開発データ perplexity ≈ 138、制御 perplexity ≈ 129 のニューラルキャッシュモデルとなる。
  • キャッシュアプローチは数千のメモリセルに拡張しても計算オーバーヘッドを最小限に抑えられ、微調整なしで事前訓練済みモデルの上に適用できる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。