QUICK REVIEW

[論文レビュー] On the State of the Art of Evaluation in Neural Language Models

Gábor Melis, Chris Dyer|arXiv (Cornell University)|Jul 18, 2017

Topic Modeling参考文献 18被引用数 47

ひとこと要約

この論文は、大規模なブラックボックスハイパーパramータチューニングを用いてニューラル言語モデルアーキテクチャを再評価し、適切な正則化を施した標準的なLSTMが、RNN や NAS ようなより最近のモデルを上回ることを示した。これにより、Penn Treebank および Wikitext-2 において新たなSOTA（最先端）が確立された。研究では、モデル評価における制御不能なハイパーパramータの変動がもたらす重大な影響を強調し、ディープラーニング研究におけるより厳密な実験基準の必要性を訴えた。

ABSTRACT

Ongoing innovations in recurrent neural network architectures have provided a steady influx of apparently state-of-the-art results on language modelling benchmarks. However, these have been evaluated using differing code bases and limited computational resources, which represent uncontrolled sources of experimental variation. We reevaluate several popular architectures and regularisation methods with large-scale automatic black-box hyperparameter tuning and arrive at the somewhat surprising conclusion that standard LSTM architectures, when properly regularised, outperform more recent models. We establish a new state of the art on the Penn Treebank and Wikitext-2 corpora, as well as strong baselines on the Hutter Prize dataset.

研究の動機と目的

モデル評価における制御不能なハイパーパramータの変動が引き起こす再現性の欠落リスクの増大に対処すること。
LSTM、RHN、NAS のような代表的な再帰的アーキテクチャの真の性能を、制御された大規模なハイパーパramータチューニングのもとで比較すること。
Penn Treebank や Wikitext-2 のような標準ベンチマークにおいて、信頼性があり再現可能な最先端のベースラインを確立すること。
ハイパーパramータの感受性と実験的制御の不足が、モデルの優位性に関する誤った主張を生む可能性があることを実証すること。
ハイパーパramータ感受性の低減と標準化された計算リソース予算の導入を含む、ディープラーニング評価における手法の改善を提言すること。

提案手法

ベイズ最適化を用いたブラックボックスハイパーパramータ最適化を採用し、複数のモデルアーキテクチャで6つの主要ハイパーパramータをチューニングした。
一般化を向上させるために、時系列間で共有されるマスクを用いた変分ドロップアウトと再帰的ドロップアウトを適用した。
入力、層内、出力ドロップアウトを独立したランダムマスクを各時刻ごとに使用し、過学習を制御した。
LSTMにおけるタイイングとアンタイイングのゲートバリアントを導入し、アーキテクチャ選択への感受性を評価した。
パラメータ数を削減しながら性能を維持するため、ダウンプロージェクションと共有埋め込みを実装した。
複数のモデルサイズと構成に対して広範なアブレーションスタディを実施し、結果の堅牢性を検証した。

実験結果

リサーチクエスチョン

RQ1RHN や NAS のようなより新しいモデルが報告した最先端の性能は、ハイパーパramータを体系的にチューニングした場合にも成立するのか？
RQ2適切に正則化されチューニングされた標準LSTMは、より複雑なアーキテクチャを上回る性能を達成できるのか？
RQ3モデルの結果はハイパーパramータの選択にどれほど感受性を示すのか？また、その感受性は定量的に測定可能か？
RQ4ハイパーパramータの変動が、ニューラル言語モデルにおける再現性の欠如にどの程度寄与しているのか？
RQ5信頼性があり再現可能なモデル比較を達成するための計算コストと利点は何か？

主な発見

適切な正則化を施した標準LSTMは、Penn Treebank および Wikitext-2 において、RHN や NAS ようなより最近のモデルを上回り、新たなSOTAを樹立した。
最良のLSTMモデルは、Penn Treebank でテストパーリューディティが58.0、Wikitext-2 で60.4を達成し、以前に報告された結果を上回った。
ハイパーパramータチューニングはモデル性能を顕著に向上させ、1500回の試行にわたるベイズ最適化が、同程度の結果に到達するまでに約8000回の試行を要するナーブなグリッドサーチを上回った。
最適な設定の周囲ではハイパーパラメータの感受性が良好に保たれており、ほとんどの近傍設定が最良値から3.0以内のパーリューディティを示した。
LSTMのゲートをタイイングしても性能に顕著な影響はなく、ハイパーパラメータが適切にチューニングされていれば、アーキテクチャの単純化が結果を劣化させないことが示唆された。
本研究では、制御不能なハイパーパラメータの変動が、特にモデル改善が微小で段階的な段階において、信頼性のない主張の主要因であることが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。