QUICK REVIEW

[논문 리뷰] The Role of Pre-training Data in Transfer Learning

Rahim Entezari, Mitchell Wortsman|arXiv (Cornell University)|2023. 02. 27.

Domain Adaptation and Few-Shot Learning인용 수 8

한 줄 요약

논문은 사전 학습 데이터 분포, 양, 방법이 전이 학습 성능에 미치는 영향을 체계적으로 연구하며, 특히 few-shot 대 full fine-tuning 시나리오에서 데이터 품질과 규모가 일부 경우 분포가 더 열악한 것을 보완할 수 있음을 보여준다.

ABSTRACT

The transfer learning paradigm of model pre-training and subsequent fine-tuning produces high-accuracy models. While most studies recommend scaling the pre-training size to benefit most from transfer learning, a question remains: what data and method should be used for pre-training? We investigate the impact of pre-training data distribution on the few-shot and full fine-tuning performance using 3 pre-training methods (supervised, contrastive language-image and image-image), 7 pre-training datasets, and 9 downstream datasets. Through extensive controlled experiments, we find that the choice of the pre-training data source is essential for the few-shot transfer, but its role decreases as more data is made available for fine-tuning. Additionally, we explore the role of data curation and examine the trade-offs between label noise and the size of the pre-training dataset. We find that using 2000X more pre-training data from LAION can match the performance of supervised ImageNet pre-training. Furthermore, we investigate the effect of pre-training methods, comparing language-image contrastive vs. image-image contrastive, and find that the latter leads to better downstream accuracy

연구 동기 및 목표

다양한 사전 학습 데이터 분포가 few-shot 및 full fine-tuning에서 하류 전이 성능에 어떤 영향을 주는지 조사한다.
데이터 큐레이션과 라벨 노이즈가 전이 학습 성능에 미치는 영향을 평가한다.
사전 학습 방법(감독 학습, CLIP, SimCLR)과 전이 가능성에 미치는 영향을 비교한다.
사전 학습 데이터셋의 크기와 데이터 품질이 다양한 작업에서 하류 성능과 어떻게 상호 작용하는지 평가한다.

제안 방법

ResNet-50을 이미지 인코더로 사용하는 CLIP 기반 사전 학습을 일곱 개의 사전 학습 데이터셋과 아홉 개의 하류 작업에 적용한다.
하이퍼파라미터를 그리드 탐색하여 하류 데이터셋에서 사전 학습 모델을 엔드투엔드로 미세 조정한다.
감독 학습, CLIP, SimCLR 사전 학습 손실을 비교하고 few-shot 대 full fine-tuning 성능을 분석한다.
사전 학습 데이터 소스, 데이터셋 크기, 캡션/텍스트 품질을 체계적으로 변화시켜 전이 효과를 분석한다.
데이터 큐레이션의 영향을 평가하기 위해 ImageNet과 Flickr 캡션 대 templated 캡션, 그리고 LAION 분포를 비교한다.

실험 결과

연구 질문

RQ1다른 사전 학습 데이터 분포가 few-shot 설정에서 서로 다른 전이 성능을 낳는가?
RQ2전이 하류에서 데이터 품질과 큐레이션이 노이즈가 있거나 더 큰 데이터셋일 때와 비교하여 어떤 영향을 미치는가?
RQ3전이 성능에 대한 사전 학습 데이터 크기의 상대적 영향은 어떻게 나타나는가?
RQ4감독 학습, CLIP, SimCLR의 사전 학습 방법은 전이 가능성 측면에서 어떻게 비교되는가?
RQ5매우 큰 노이즈 데이터셋(예: LAION)이 다양한 작업에서 큐레이션된 라벨링된 사전 학습(ImageNet)을 대등하게 만들 수 있는 정도는 어느 정도인가?

주요 결과

사전 학습 데이터 소스 간 차이는 few-shot 전이에서 뚜렷하지만 더 많은 미세 조정 데이터가 있을수록 차이가 크게 줄어난다.
가장 열악한 사전 학습 데이터셋조차도 대부분의 하류 작업에서 제로에서의 학습보다 우수한 성능을 보인다.
잘 큐레이션된 캡션 품질 개선(템플릿 캡션)은 원래 Flickr 캡션 대비 전이 정확도를 크게 높인다.
사전 학습 데이터의 규모를 키우면 이점이 나타나며, LAION-2B가 일부 작업에서 ImageNet보다 우수하지만 이득은 작업에 따라 다르고 다른 작업에선 포화된다.
SimCLR 사전 학습은 일반적으로 CLIP보다 few-shot 전이에서 더 나은 성능을 보이나 더 많은 하류 데이터가 있을 때 차이가 줄어든다.
LAION 데이터를 대규모로 확장하면 특정 경우 ImageNet과 같거나 이를 능가할 수 있지만 모든 작업에 보편적으로 해당되지는 않는다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.