[논문 리뷰] Rethinking Pre-training and Self-training
본 논문은 시각 태스크에서의 사전 학습(pre-training)과 자기 학습(self-training)을 비교하여, 강한 데이터 증강과 더 많은 비라벨 데이터가 사전 학습의 가치를 감소시키는 반면 자기 학습은 일관되게 이득을 제공하며, 심지어 사전 학습이 악영향을 주는 경우에도 그렇다는 점을 보인다. 또한 자기 학습의 추가적 이점을 보여주고, COCO와 PASCAL에서 자기 학습을 이용한 새로운 최첨단 성과를 보고한다.
Pre-training is a dominant paradigm in computer vision. For example, supervised ImageNet pre-training is commonly used to initialize the backbones of object detection and segmentation models. He et al., however, show a surprising result that ImageNet pre-training has limited impact on COCO object detection. Here we investigate self-training as another method to utilize additional data on the same setup and contrast it against ImageNet pre-training. Our study reveals the generality and flexibility of self-training with three additional insights: 1) stronger data augmentation and more labeled data further diminish the value of pre-training, 2) unlike pre-training, self-training is always helpful when using stronger data augmentation, in both low-data and high-data regimes, and 3) in the case that pre-training is helpful, self-training improves upon pre-training. For example, on the COCO object detection dataset, pre-training benefits when we use one fifth of the labeled data, and hurts accuracy when we use all labeled data. Self-training, on the other hand, shows positive improvements from +1.3 to +3.4AP across all dataset sizes. In other words, self-training works well exactly on the same setup that pre-training does not work (using ImageNet to help COCO). On the PASCAL segmentation dataset, which is a much smaller dataset than COCO, though pre-training does help significantly, self-training improves upon the pre-trained model. On COCO object detection, we achieve 54.3AP, an improvement of +1.5AP over the strongest SpineNet model. On PASCAL segmentation, we achieve 90.5 mIOU, an improvement of +1.5% mIOU over the previous state-of-the-art result by DeepLabv3+.
연구 동기 및 목표
- 다양한 데이터 증강 강도와 라벨링된 데이터 양에서 객체 탐지 및 분할에 대한 ImageNet 사전 학습의 효과를 평가한다.
- ImageNet 및 Open Images의 비라벨 데이터를 활용한 사전 학습의 대안으로서의 자기 학습을 평가한다.
- 감독 학습 사전 학습, 자기 감독 학습( self-supervised ), 및 자기 학습을 비교하여 상대적 이점과 상호 작용을 결정한다.
- 고급된 학습 아키텍처, 데이터세트, 작업(탐지 및 분할) 전반에 걸친 자기 학습의 확장성 및 유연성을 입증한다.
제안 방법
- 4개의 정책(Augment-S1~Augment-S4)으로 데이터 증강 강도를 체계적으로 변화시킨다.
- COCO에서 RetinaNet을 위한 EfficientNet-B7 백본을 사용하고, 최신 비교를 위해 SpineNet 변종을 사용한다.
- 비라벨 데이터(ImageNet, Open Images)에서 의사 라벨링을 사용하는 교사-학생 프레임워크로 자기 학습을 적용한다.
- 초기화로서 감독된 ImageNet 사전 학습과 자기 감독 사전 학습(SimCLR)을 모두 평가한다.
- 사전 학습, 자기 학습, 공동 최적화의 조합과 공동 학습을 조사하여 추가 이득을 평가한다.
실험 결과
연구 질문
- RQ1다양한 데이터 증강 강도와 라벨링 데이터 크기에 따라 ImageNet 사전 학습이 COCO 객체 탐지와 PASCAL 분할에 도움이 되는가?
- RQ2사전 학습이 해를 끼칠 때도 자기 학습이 견고하고 이로운가, 그리고 증강과의 상호작용은 어떠한가?
- RQ3감독 학습 사전 학습과 자기 감독 사전 학습이 COCO/분할 작업으로의 전이에서 어떻게 비교되는가?
- RQ4자기 학습이 데이터세트와 아키텍처 전반에서 최첨단 결과를 낼 수 있으며, 사전 학습과 추가적으로 작용하는가?
주요 결과
- 강한 데이터 증강과 더 많은 라벨링 데이터는 사전 학습의 이점을 감소시키거나 역전시키고, 강한 증강은 COCO에서 최대 -1.0 AP만큼 손해를 줄 수 있다.
- 자기 학습은 데이터 규칙에서 일관되게 이득을 제공하며, 사전 학습이 해롭더라도 COCO에서 강한 증강 하에 +1.3 AP의 이득을 준다.
- 자기 학습의 이점은 데이터세트 크기(20%-100%) 전반에 지속되며, 사전 학습과도 더해져, 예를 들어 두 방법을 함께하면 각각보다 더 큰 이득을 준다.
- 자기 감독 사전 학습(SimCLR)은 감독형 ImageNet 사전 학습과 비슷한 성능을 보이며, 높은 데이터/강한 증강 설정에서 COCO에 또한 악영향을 주는 경우가 있어, 이때는 자기 학습이 도움이 된다.
- COCO에서 Open Images를 이용한 자기 학습은 54.3 AP를 달성하고 이전 SpineNet 기준보다 +1.5 AP 높다; PASCAL VOC 2012에서 NAS-FPN/EfficientNet으로 자기 학습은 90.5 mIOU에 도달하여 이전 최첨단보다 +1.5%이다.
- 공동 학습 및 사전 학습, 자기 학습, 공동 최적화를 결합하면 추가적인 개선을 얻을 수 있으며, 상호 보완적 이득을 시사한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.