QUICK REVIEW

[論文レビュー] Critical Hyper-Parameters: No Random, No Cry

Olivier Bousquet, Sylvain Gelly|arXiv (Cornell University)|Jun 10, 2017

Advanced Multi-Objective Optimization Algorithms参考文献 14被引用数 30

ひとこと要約

本稿では、深層学習におけるハイパーパramータ最適化のためのランダム探索やグリッド探索の優れた代替手法として、ランダムにシャッフルされたハマークレイ（S-H）列を提案する。低不確実性列を活用することで、ハイパーパramータ空間の均一なカバーが保証され、最適な設定に到達するための試行回数が削減される。S-Hは、特に中程度から大規模な予算条件下で、ワンショット最適化およびベイズ最適化の両設定において、ランダム探索やラテンハイパーキューブサンプリング（LHS）を上回る性能を発揮する。

ABSTRACT

The selection of hyper-parameters is critical in Deep Learning. Because of the long training time of complex models and the availability of compute resources in the cloud, "one-shot" optimization schemes - where the sets of hyper-parameters are selected in advance (e.g. on a grid or in a random manner) and the training is executed in parallel - are commonly used. It is known that grid search is sub-optimal, especially when only a few critical parameters matter, and suggest to use random search instead. Yet, random search can be "unlucky" and produce sets of values that leave some part of the domain unexplored. Quasi-random methods, such as Low Discrepancy Sequences (LDS) avoid these issues. We show that such methods have theoretical properties that make them appealing for performing hyperparameter search, and demonstrate that, when applied to the selection of hyperparameters of complex Deep Learning models (such as state-of-the-art LSTM language models and image classification models), they yield suitable hyperparameters values with much fewer runs than random search. We propose a particularly simple LDS method which can be used as a drop-in replacement for grid or random search in any Deep Learning pipeline, both as a fully one-shot hyperparameter search or as an initializer in iterative batch optimization.

研究の動機と目的

ランダム探索が不運なサンプリングによって重要な領域を逃すのを防ぎ、グリッド探索が重複する評価でリソースを無駄にするという、ランダム探索とグリッド探索の限界を解消すること。
深層学習モデルにおけるワンショットおよび反復的ハイパーパramータ最適化において、低不確実性列（LDS）の理論的および実験的性能を評価すること。
より少ない評価回数でハイパーパramータ空間をよりよくカバーできる、ランダム探索やグリッド探索の代替としての堅牢なドロップイン可能な代替手法を特定すること。
LDSがベイズ最適化フレームワークにおける初期化手法としての有効性を評価すること。
深層学習パイプラインへのLDSの採用を支援する実用的でオープンソースのライブラリを提供すること。

提案手法

本稿では、低不確実性列（LDS）の一種であるランダムにシャッフルされたハマークレイ（S-H）列を用い、探索空間全体に均一に分布するハイパーパramータ設定を生成する。
ワンショット最適化を反復的でない手法として形式化し、事前にハイパーパramータセットを選択して並列で学習させ、最適化誤差を性能指標として測定する。
理論的分析では、体積分散と確率的分散を用いて、列がドメインをどれだけよくカバーしているかを定量化し、LDSが最大未探索領域を最小化することを示す。
実験的評価では、複数のベンチマーク関数および深層学習モデルにおいて、S-Hをランダム探索、ラテンハイパーキューブサンプリング（LHS）、およびベイズ最適化における懸念的ファンタジィングと比較する。
本手法は、ワンショット探索としての単体的適用およびバッチ反復的ベイズ最適化における初期化としての応用が行われ、結果は目的関数値の比として報告される。
著者らは、ソボルやシャッフルなしのハルトンと異なり、欠陥を回避するためのLDSの強化版として、ランダムシフトを施したランダムにシャッフルされたハマークレイを導入する。

実験結果

リサーチクエスチョン

RQ1低不確実性列（LDS）は、深層学習におけるハイパーパramータチューニングにおいて、少ない評価回数でランダム探索を上回る最適化誤差を達成できるか？
RQ2ハイパーパramータのうち数個しか重要でない場合、LDSはグリッド探索と比べてどうなるか？
RQ3LDSは反復的ベイズ最適化における有効な初期化として機能するか、特にランダム探索やLHSサンプリングと比較してどうか？
RQ4LDSのバリアントの選択が性能に顕著な影響を与えるか、またどのバリアントがさまざまな設定で最も堅牢か？
RQ5ハイパーパramータの順位付けの影響は何か？特に一部のハイパーパramータが他のものよりも影響力が強い場合、LDSの性能にどう影響するか？

主な発見

ランダムにシャッフルされたハマークレイ（S-H）列は、ワンショットハイパーパラメータ最適化において、常にランダム探索やLHSを上回り、最適な設定に到達するための試行回数を削減する。
S-Hは、十分なサンプリング条件下で、ε距離以内のグローバル最適解を100％の成功率で発見できるが、ランダム探索は不運なサンプリングのため失敗する可能性がある。
ベイズ最適化において、S-Hで初期化された手法は、ランダムおよびLHS初期化を上回り、特に高次元空間および中程度の予算条件下でエントロピー探索や懸念的ファンタジィングと同等またはそれを上回る性能を示す。
小規模な予算（例：10未満）ではLHSがS-Hを上回る可能性があるが、S-Hはほとんどの実用的設定（予算≥10）で優れている。
LDSの理論的収束速度は、高信頼度分位数においてランダム探索を厳密に上回り、S-Hは悪いハイパーパラメータ順位付けに対しても堅牢である。
本研究では、通常は数個のハイパーパラメータが重要であることが確認され、LDSは重複する評価を最小限に抑えることで、これらの領域を効率的に探索している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。