QUICK REVIEW

[論文レビュー] Dynamic Evaluation of Neural Sequence Models

Ben Krause, Emmanuel Kahembwe|arXiv (Cornell University)|Sep 21, 2017

Topic Modeling参考文献 32被引用数 60

ひとこと要約

Dynamic evaluation は最近の履歴に基づく勾配更新を用いてテスト時にモデルパラメータを適応的に更新し、複数の言語モデル評価指標で最先端の perplexities および cross-entropies を達成します。

ABSTRACT

We present methodology for using dynamic evaluation to improve neural sequence models. Models are adapted to recent history via a gradient descent based mechanism, causing them to assign higher probabilities to re-occurring sequential patterns. Dynamic evaluation outperforms existing adaptation approaches in our comparisons. Dynamic evaluation improves the state-of-the-art word-level perplexities on the Penn Treebank and WikiText-2 datasets to 51.1 and 44.3 respectively, and the state-of-the-art character-level cross-entropies on the text8 and Hutter Prize datasets to 1.19 bits/char and 1.08 bits/char respectively.

研究の動機と目的

系列の局所的な分布シフトを捉えるための勾配ベースのテスト時適応機構を動機付け、開発する。
静的モデルおよび従来の適応手法よりも最近の履歴への適応が予測性能を向上させることを示す。
ワードレベルおよび文字レベルの言語モデリング指標で手法を評価し、タイムスケールの影響を分析する。
適応パラメータと計算量を削減するための動的評価の実用的改良を提案する。

提案手法

長いテスト系列をセグメントに分割し、各セグメントで勾配を計算して適応パラメータを更新する。
適応パラメータ theta_l^0 を訓練済みのグローバルパラメータ theta_g で初期化する。
セグメント損失 L(s_i) を用いた勾配ベースの更新を適用して、次のセグメントの前に theta_l^i を得る。
訓練時パラメータへバイアスをかけるために global decay prior lambda*(theta_g - theta_l^{i-1}) を導入する。
SGD を、訓練データから事前計算された MS_g（平均二乗勾配）を用いて各パラメータの更新をスケールする RMSprop 風の更新に置き換える。
適応パラメータ数を削減するために、隠れ状態を摂動させる小さな適応マトリクス M を学習するスパース動的評価を導入する（h'_t = h_t + M h_t）。
複数の更新ルールを提供・比較し、実験で RMS + グローバル prior が最良の性能を示す。

実験結果

リサーチクエスチョン

RQ1動的評価は静的評価および従来の適応手法より言語モデリング性能を改善するか。
RQ2動的評価における有効な更新ルール（SGD 対 RMSprop、グローバル priors の有無）は、語レベルおよび文字レベルのタスクでどう異なるか。
RQ3動的評価は異なるタイムスケールや分布シフトでどのように機能するか。
RQ4適応を計算効率的に行えるように（例：スパース動的評価）しつつ、性能を損なわないか。

主な発見

Dynamic evaluation は AWD-LSTM ベースラインで PTB の perplexity を 51.1 に、LSTM 系で 51.6/51.1 に改善し、神経キャッシュをこれらの設定で上回る。
WikiText-2 では dynamic evaluation が 44.3 perplexity を達成し、関連する適応法より著しく良い。
文字レベルの結果では、text8 で 1.19 bits/char、Hutter Prize データセットで 1.08 bits/char を達成し、スパース動的評価は Hutter Prize で 1.13 bits/char に到達。
スパース動的評価は適応パラメータのごく一部（0.5%）のみを使用しつつ、有意な改善をもたらす（例：Hutter Prize で 1.13 bits/char）。
動的評価は数百文字程度を処理した後に有意な利得を示し、シーケンスが継続する場合にも改善を維持できる、特にクロスドメインのシフト（例：スペイン語データ）の場合。
動的評価モデルから生成される条件付きサンプルは、適応中に学習された長距離の反復性と局所的な規則性を反映する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。