Skip to main content
QUICK REVIEW

[論文レビュー] Dynamic Evaluation of Transformer Language Models

Ben Krause, Emmanuel Kahembwe|arXiv (Cornell University)|Apr 17, 2019
Topic Modeling参考文献 20被引用数 32
ひとこと要約

この論文は Transformer-XL モデルに動的評価を適用し、最近の系列履歴に適応することで enwik8、text8、WikiText-103 で最先端の結果を達成します。

ABSTRACT

This research note combines two methods that have recently improved the state of the art in language modeling: Transformers and dynamic evaluation. Transformers use stacked layers of self-attention that allow them to capture long range dependencies in sequential data. Dynamic evaluation fits models to the recent sequence history, allowing them to assign higher probabilities to re-occurring sequential patterns. By applying dynamic evaluation to Transformer-XL models, we improve the state of the art on enwik8 from 0.99 to 0.94 bits/char, text8 from 1.08 to 1.04 bits/char, and WikiText-103 from 18.3 to 16.4 perplexity points.

研究の動機と目的

  • Transformer-XL の長距離依存関係を活用するために動的評価を組み合わせる動機付け。
  • 動的評価が Transformer-XL モデルに追加の利得をもたらすかを調査する。
  • 文字レベルおよび単語レベルの言語モデリングベンチマークでの改善を測定する。
  • 適応が Transformer-XL の memory-augmented attention とどのように相互作用するかを分析する。

提案手法

  • シーケンス区間レベルで Transformer-XL に勾配降下法ベースの動的評価を適用する。
  • 2 つの動的評価オプティマイザを比較する:SGD ベースの動的評価と減衰を伴う RMSprop のような動的評価。
  • 動的評価のセグメントを Transformer-XL のメモリセグメントと合わせ、逆伝播を単一セグメントに切り捨てる。
  • テスト前に検証セットで動的評価のハイパーパラメータを調整する。

実験結果

リサーチクエスチョン

  • RQ1動的評価を Transformer-XL に適用した場合、静的評価と比較して追加の利得は得られるか。
  • RQ2長距離依存ベンチマークで SGD ベースの動的評価と減衰付き RMS ベースの動的評価はどのように比較されるか。
  • RQ3Transformer-XL を用いた場合、文字レベルベンチマーク(enwik8、text8)と語レベルベンチマーク(WikiText-103)において動的評価の効果はどうなるか。
  • RQ4適応は Transformer-XL の memory/caching メカニズムとどう相互作用するか。

主な発見

  • 動的評価は enwik8 で Transformer-XL を 0.993 から 0.940 bits/char に改善(RMS dynamic eval + decay)。
  • 動的評価は text8 を 1.085 から 1.038 bits/char に改善(RMS dynamic eval + decay)。
  • 動的評価は WikiText-103 を 18.1 から 16.4 perplexity に改善(RMS dynamic eval)。
  • Adaptive softmax with dynamic evaluation yields best reported word-level perplexities under the tested setup (16.4).
  • Improvements with dynamic evaluation are present but smaller than gains seen with weaker models, suggesting Transformer-XL already captures many re-occurring patterns.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。