Skip to main content
QUICK REVIEW

[논문 리뷰] The Role of Pre-training Data in Transfer Learning

Rahim Entezari, Mitchell Wortsman|arXiv (Cornell University)|2023. 02. 27.
Domain Adaptation and Few-Shot Learning인용 수 8
한 줄 요약

논문은 사전 학습 데이터 분포, 양, 방법이 전이 학습 성능에 미치는 영향을 체계적으로 연구하며, 특히 few-shot 대 full fine-tuning 시나리오에서 데이터 품질과 규모가 일부 경우 분포가 더 열악한 것을 보완할 수 있음을 보여준다.

ABSTRACT

The transfer learning paradigm of model pre-training and subsequent fine-tuning produces high-accuracy models. While most studies recommend scaling the pre-training size to benefit most from transfer learning, a question remains: what data and method should be used for pre-training? We investigate the impact of pre-training data distribution on the few-shot and full fine-tuning performance using 3 pre-training methods (supervised, contrastive language-image and image-image), 7 pre-training datasets, and 9 downstream datasets. Through extensive controlled experiments, we find that the choice of the pre-training data source is essential for the few-shot transfer, but its role decreases as more data is made available for fine-tuning. Additionally, we explore the role of data curation and examine the trade-offs between label noise and the size of the pre-training dataset. We find that using 2000X more pre-training data from LAION can match the performance of supervised ImageNet pre-training. Furthermore, we investigate the effect of pre-training methods, comparing language-image contrastive vs. image-image contrastive, and find that the latter leads to better downstream accuracy

연구 동기 및 목표

  • 다양한 사전 학습 데이터 분포가 few-shot 및 full fine-tuning에서 하류 전이 성능에 어떤 영향을 주는지 조사한다.
  • 데이터 큐레이션과 라벨 노이즈가 전이 학습 성능에 미치는 영향을 평가한다.
  • 사전 학습 방법(감독 학습, CLIP, SimCLR)과 전이 가능성에 미치는 영향을 비교한다.
  • 사전 학습 데이터셋의 크기와 데이터 품질이 다양한 작업에서 하류 성능과 어떻게 상호 작용하는지 평가한다.

제안 방법

  • ResNet-50을 이미지 인코더로 사용하는 CLIP 기반 사전 학습을 일곱 개의 사전 학습 데이터셋과 아홉 개의 하류 작업에 적용한다.
  • 하이퍼파라미터를 그리드 탐색하여 하류 데이터셋에서 사전 학습 모델을 엔드투엔드로 미세 조정한다.
  • 감독 학습, CLIP, SimCLR 사전 학습 손실을 비교하고 few-shot 대 full fine-tuning 성능을 분석한다.
  • 사전 학습 데이터 소스, 데이터셋 크기, 캡션/텍스트 품질을 체계적으로 변화시켜 전이 효과를 분석한다.
  • 데이터 큐레이션의 영향을 평가하기 위해 ImageNet과 Flickr 캡션 대 templated 캡션, 그리고 LAION 분포를 비교한다.

실험 결과

연구 질문

  • RQ1다른 사전 학습 데이터 분포가 few-shot 설정에서 서로 다른 전이 성능을 낳는가?
  • RQ2전이 하류에서 데이터 품질과 큐레이션이 노이즈가 있거나 더 큰 데이터셋일 때와 비교하여 어떤 영향을 미치는가?
  • RQ3전이 성능에 대한 사전 학습 데이터 크기의 상대적 영향은 어떻게 나타나는가?
  • RQ4감독 학습, CLIP, SimCLR의 사전 학습 방법은 전이 가능성 측면에서 어떻게 비교되는가?
  • RQ5매우 큰 노이즈 데이터셋(예: LAION)이 다양한 작업에서 큐레이션된 라벨링된 사전 학습(ImageNet)을 대등하게 만들 수 있는 정도는 어느 정도인가?

주요 결과

  • 사전 학습 데이터 소스 간 차이는 few-shot 전이에서 뚜렷하지만 더 많은 미세 조정 데이터가 있을수록 차이가 크게 줄어난다.
  • 가장 열악한 사전 학습 데이터셋조차도 대부분의 하류 작업에서 제로에서의 학습보다 우수한 성능을 보인다.
  • 잘 큐레이션된 캡션 품질 개선(템플릿 캡션)은 원래 Flickr 캡션 대비 전이 정확도를 크게 높인다.
  • 사전 학습 데이터의 규모를 키우면 이점이 나타나며, LAION-2B가 일부 작업에서 ImageNet보다 우수하지만 이득은 작업에 따라 다르고 다른 작업에선 포화된다.
  • SimCLR 사전 학습은 일반적으로 CLIP보다 few-shot 전이에서 더 나은 성능을 보이나 더 많은 하류 데이터가 있을 때 차이가 줄어든다.
  • LAION 데이터를 대규모로 확장하면 특정 경우 ImageNet과 같거나 이를 능가할 수 있지만 모든 작업에 보편적으로 해당되지는 않는다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.