[論文レビュー] Rethinking the Hyperparameters for Fine-tuning
本論文は、事前学習済み ImageNet モデルの微調整におけるハイパーパラメータを再評価し、モーメント、実効学習率、および正則化がドメイン類似性と相互作用し、固定デフォルトにすべきではないことを示す。最適な ELR をソース-ターゲットドメインの類似性と結びつけ、参照ベースの正則化が有効か有害かを強調することで、ハイパーパラメータ探索を削減する指針を提供する。
Fine-tuning from pre-trained ImageNet models has become the de-facto standard for various computer vision tasks. Current practices for fine-tuning typically involve selecting an ad-hoc choice of hyperparameters and keeping them fixed to values normally used for training from scratch. This paper re-examines several common practices of setting hyperparameters for fine-tuning. Our findings are based on extensive empirical evaluation for fine-tuning on various transfer learning benchmarks. (1) While prior works have thoroughly investigated learning rate and batch size, momentum for fine-tuning is a relatively unexplored parameter. We find that the value of momentum also affects fine-tuning performance and connect it with previous theoretical findings. (2) Optimal hyperparameters for fine-tuning, in particular, the effective learning rate, are not only dataset dependent but also sensitive to the similarity between the source domain and target domain. This is in contrast to hyperparameters for training from scratch. (3) Reference-based regularization that keeps models close to the initial model does not necessarily apply for "dissimilar" datasets. Our findings challenge common practices of fine-tuning and encourages deep learning practitioners to rethink the hyperparameters for fine-tuning.
研究の動機と目的
- 事前学習済み Vision モデルの微調整における固定ハイパーパラメータの妥当性を疑問視する。
- ソースドメインに対する類似性が異なるデータセットにおいて、モーメントが微調整性能へ与える影響を調査する。
- 実効学習率の役割と、それがドメイン類似性に依存する様を検討する。
- 参照ベースの正則化が、類似ドメインと異なるドメインの両方で微調整を改善するか評価する。)
- method:
- method
提案手法
- ResNet-101-V2 を用いた微調整のための体系的ハイパーパラメータ探索を7つの転移学習データセットで行う。
- 学習率、モーメント、重み減衰を変化させ、Top-1 バリデーション誤差を測定する。
- 微調整におけるモーメントと実効学習率の相互作用を分析する。
- 標準的な L2 正則化と L2-SP(参照ベース)正則化をデータセット間で比較する。
- ドメイン類似性と最適 ELR、および正則化有効性との関係を調査する。)
実験結果
リサーチクエスチョン
- RQ1モーメントは、ソースドメインに対する類似性が異なるデータセットにおいて微調整性能にどう影響するか?
- RQ2微調整において、最適な実効学習率はソース-ターゲットドメインの類似性とともにどう変化するか?
- RQ3参照ベースの正則化は、類似ドメインと非類似ドメインの両方で一貫して微調整を助けるか?
- RQ4ドメイン類似性を用いてELRを予測または制約して、効率的なハイパーパラメータ探索を実現できるか?
主な発見
- モーメントは、類似ドメインでは 0、非類似ドメインでは 0.9 が最適となる場合があり、固定モーメントのデフォルトに挑戦する。
- 最適な実効学習率はソースとターゲットのドメインの類似性に依存し、ELR の決定が学習率そのものだけより性能差を説明する。
- 初期モデルに近づける正則化(L2-SP)は、特に非類似データセットで普遍的に微調整を改善するわけではなく、むしろ劣ることもある。単純な重み減衰は多くの場合で同等の性能を示す。
- ハイパーパラメータは結合しており、モーメントを変えると ELR が変化し、学習率の探索範囲も影響を受けるため、ELR が微調整成功の中心的な要因となる。
- ドメイン類似性スコアは最適 ELR のスケールと相関し、類似/非類似のソースドメインを参照することでハイパーパラメータ探索を実用的に制限する戦略を可能にする。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。