[논문 리뷰] Rethinking the Hyperparameters for Fine-tuning
논문은 사전 학습된 ImageNet 모델의 미세 조정에서 모멘텀, 효과적 학습률(ELR), 정규화가 도메인 유사도와 상호작용하며 고정된 기본값으로 설정되어서는 안 됨을 재평가한다. 최적 ELR을 소스-대상 도메인 유사도에 연결하고 참조 기반 정규화가 도움이 되는지 혹은 해를 끼치는지 강조하며 하이퍼파라미터 검색을 줄이기 위한 지침을 제시한다.
Fine-tuning from pre-trained ImageNet models has become the de-facto standard for various computer vision tasks. Current practices for fine-tuning typically involve selecting an ad-hoc choice of hyperparameters and keeping them fixed to values normally used for training from scratch. This paper re-examines several common practices of setting hyperparameters for fine-tuning. Our findings are based on extensive empirical evaluation for fine-tuning on various transfer learning benchmarks. (1) While prior works have thoroughly investigated learning rate and batch size, momentum for fine-tuning is a relatively unexplored parameter. We find that the value of momentum also affects fine-tuning performance and connect it with previous theoretical findings. (2) Optimal hyperparameters for fine-tuning, in particular, the effective learning rate, are not only dataset dependent but also sensitive to the similarity between the source domain and target domain. This is in contrast to hyperparameters for training from scratch. (3) Reference-based regularization that keeps models close to the initial model does not necessarily apply for "dissimilar" datasets. Our findings challenge common practices of fine-tuning and encourages deep learning practitioners to rethink the hyperparameters for fine-tuning.
연구 동기 및 목표
- 사전 학습된 비전 모델의 미세 조정에서 고정된 하이퍼파라미터의 타당성을 의문시한다.
- 원천 도메인에 대한 유사성 차이가 있는 데이터셋에서 모멘텀이 미세 조정 성능에 미치는 영향을 조사한다.
- 도메인 유사도에 따른 효과적 학습률의 역할과 의존성을 조사한다.
- 참조 기반 정규화가 유사한 도메인과 비유사한 도메인에서 미세 조정을 개선하는지 평가한다.
제안 방법
- ResNet-101-V2로 일곱 개의 전이 학습 데이터셋에서 체계적인 하이퍼파라미터 검색을 수행한다.
- 학습률, 모멘텀, 가중치 감소를 다양화하고 Top-1 검증 오차를 측정한다.
- 미세 조정에서 모멘텀과 효과적 학습률의 상호작용을 분석한다.
- 표준 L2 정규화와 L2-SP(참조 기반) 정규화를 데이터셋 간에 비교한다.
- 도메인 유사도와 최적 ELR 간의 관계 및 정규화 효과를 조사한다.
실험 결과
연구 질문
- RQ1모멘텀이 소스 도메인과 다른 유사성의 데이터셋에서 미세 조정 성능에 어떤 영향을 미치는가?
- RQ2미세 조정에서 소스-대상 도메인 유사성에 따라 최적의 효과적 학습률이 어떻게 달라지는가?
- RQ3참조 기반 정규화가 유사한 도메인과 비유사한 도메인에서 일관되게 미세 조정을 돕는가?
- RQ4도메인 유사도를 사용하여 ELR을 예측하거나 하이퍼파라미터 검색 범위를 제한할 수 있는가?
주요 결과
- 유사한 도메인에서는 모멘텀이 0에서 최적일 수 있고 비유사한 도메인에서는 0.9에서 최적일 수 있어 고정된 모멘텀의 기본값에 도전한다.
- 최적의 효과적 학습률은 원천 도메인과 목표 도메인의 유사성에 의존하며, ELR에 고정하는 것이 단순한 학습률만으로의 성능 차이보다 더 큰 차이를 설명한다.
- 초기 가중치에 가깝게 유지하는 정규화(L2-SP)는 특히 비유사 데이터셋에서 보편적으로 미세 조정을 개선하지 못하며, 간단한 가중치 감소가 많은 경우에 비슷한 성능을 낼 수 있다.
- 하이퍼파라미터는 상호 의존적이다; 모멘텀 변경은 ELR과 학습률 탐색 범위를 바꿔 미세 조정 성공의 중심 요인이 된다.
- 도메인 유사도 점수는 최적 ELR의 규모와 상관관계가 있어 유사/비유사 소스 도메인을 참조함으로써 하이퍼파라미터 검색 범위를 practical하게 제한하는 전략을 가능하게 한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.