[논문 리뷰] ScratchDet: Exploring to Train Single-Shot Object Detectors from Scratch.
이 논문은 배치 정규화(BatchNorm)를 활용해 안정적인 훈련을 가능하게 하고, 공간 정보를 유지하는 새로운 Root-ResNet 백본을 도입함으로써, ImageNet 사전 훈련 없이도 단일 스크래치 객체 검출기(Single-shot object detectors)를 훈련시키는 ScratchDet를 제안한다. 이 방법은 ImageNet 사전 훈련 없이도 PASCAL VOC 및 MS COCO에서 최신 기술 수준의 정확도를 달성하며, 여러 사전 훈련된 단일 스크래치 검출기들을 능가한다.
Current state-of-the-art object objectors are fine-tuned from the off-the-shelf networks pretrained on large-scale classification dataset ImageNet, which incurs some additional problems: 1) The classification and detection have different degrees of sensitivity to translation, resulting in the learning objective bias; 2) The architecture is limited by the classification network, leading to the inconvenience of modification. To cope with these problems, training detectors from scratch is a feasible solution. However, the detectors trained from scratch generally perform worse than the pretrained ones, even suffer from the convergence issue in training. In this paper, we explore to train object detectors from scratch robustly. By analysing the previous work on optimization landscape, we find that one of the overlooked points in current trained-from-scratch detector is the BatchNorm. Resorting to the stable and predictable gradient brought by BatchNorm, detectors can be trained from scratch stably while keeping the favourable performance independent to the network architecture. Taking this advantage, we are able to explore various types of networks for object detection, without suffering from the poor convergence. By extensive experiments and analysis on downsampling factor, we propose the Root-ResNet backbone network, which makes full use of the information from original images. Our ScratchDet achieves the state-of-the-art accuracy on PASCAL VOC 2007, 2012 and MS COCO among all the train-from-scratch detectors and even performs better than several one-stage pretrained methods. Codes will be made publicly available at https://github.com/KimSoybean/ScratchDet
연구 동기 및 목표
- ImageNet 사전 훈련 모델에서의 미세조정에 따른 목적 함수 편향과 아키텍처 제약 등의 문제를 해결하기 위해.
- 이전의 스크래치에서 훈련하는 방법에서 흔히 발생하는 수렴 문제를 극복하고, 안정적인 객체 검출기 훈련을 가능하게 하기 위해.
- 사전 훈련된 분류 네트워크에 의존하지 않도록 하여 객체 검출에서 아키텍처의 유연성을 탐색하기 위해.
- 원본 이미지의 공간 정보를 감소된 다운샘플링을 통해 유지하는 백본 네트워크를 설계하기 위해.
- 기본 벤치마크에서 모든 스크래치에서 훈련된 검출기 중 최신 기술 수준의 정확도를 달성하기 위해.
제안 방법
- 훈련 중 기울기의 안정성을 높이기 위해 배치 정규화를 활용하여 무작위 초기화로부터 신뢰할 수 있는 수렴을 가능하게 한다.
- 최적화 경로를 분석하여, 스크래치에서의 성공적인 훈련에 있어 배치 정규화가 핵심 요소임을 규명한다.
- 입력 이미지의 고해상도 특징을 유지하기 위해 다운샘플링 비율을 감소시킨 백본으로서 Root-ResNet을 제안한다.
- 루트 특징 맵을 최종 레이어에 직접 연결하는 잔차 블록 설계를 통해 특징 재사용을 향상시킨다.
- 백본 아키텍처 최적화를 위해 다운샘플링 비율에 대한 광범위한 추론 실험을 수행한다.
- 표준 단일 스크래치 검출 헤드를 사용하여 무작위 초기화로부터 엔드 투 엔드로 검출기를 훈련시킨다.
실험 결과
연구 질문
- RQ1ImageNet에서 사전 훈련된 모델에서 미세조정하는 것과 경쟁 가능한 성능을 달성할 수 있는가?
- RQ2배치 정규화는 스크래치에서 훈련하는 검출기의 훈련 안정성에 어떤 역할을 하는가?
- RQ3스크래치에서 훈련할 경우 백본의 다운샘플링 비율은 검출 정확도에 어떤 영향을 미치는가?
- RQ4Root-ResNet과 같은 맞춤형 백본은 사전 훈련 없이도 특징 표현을 향상시킬 수 있는가?
- RQ5사전 훈련 편향을 제거하면 일반화 또는 검출 성능이 향상되는가?
주요 결과
- ScratchDet는 모든 스크래치에서 훈련된 검출기 중에서 PASCAL VOC 2007 및 2012에서 최신 기술 수준의 평균 정밀도(mAP)를 달성한다.
- MS COCO에서 ScratchDet는 ImageNet 사전 훈련을 사용하는 여러 단일 스크래치 검출기들을 능가한다.
- 제안된 Root-ResNet 백본은 다운샘플링을 줄여 특징 표현을 크게 향상시켜 더 높은 검출 정확도를 이끌어낸다.
- 배치 정규화는 무작위 초기화로부터의 안정적인 훈련에 필수적이며, 사전 훈련 없이도 신뢰할 수 있는 수렴을 가능하게 한다.
- 광범위한 추론 실험을 통해 다운샘플링 비율을 감소시킬수록 성능 향상이 뚜렷하게 나타나며, 특히 소형 객체 검출에서 유의미한 개선이 이루어진다.
- 이 방법은 어떤 ImageNet 사전 훈련도 필요로 하지 않으며, 엔드 투 엔드의 스크래치에서의 훈련 가능성은 입증한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.