[논문 리뷰] DetNAS: Backbone Search for Object Detection
DetNAS는 원샷 슈퍼넷과 진화적 탐색을 활용하여 객체 탐지기에 맞춘 백본을 설계하는 세 단계의 백본 탐색 프레임워크를 도입하며, 수작업으로 설계된 네트워크보다 더 적은 FLOPs로 COCO mmAP를 높인다.
Object detectors are usually equipped with backbone networks designed for image classification. It might be sub-optimal because of the gap between the tasks of image classification and object detection. In this work, we present DetNAS to use Neural Architecture Search (NAS) for the design of better backbones for object detection. It is non-trivial because detection training typically needs ImageNet pre-training while NAS systems require accuracies on the target detection task as supervisory signals. Based on the technique of one-shot supernet, which contains all possible networks in the search space, we propose a framework for backbone search on object detection. We train the supernet under the typical detector training schedule: ImageNet pre-training and detection fine-tuning. Then, the architecture search is performed on the trained supernet, using the detection task as the guidance. This framework makes NAS on backbones very efficient. In experiments, we show the effectiveness of DetNAS on various detectors, for instance, one-stage RetinaNet and the two-stage FPN. We empirically find that networks searched on object detection shows consistent superiority compared to those searched on ImageNet classification. The resulting architecture achieves superior performance than hand-crafted networks on COCO with much less FLOPs complexity.
연구 동기 및 목표
- 이미지 분류 백본이 아니라 객체 탐지에 맞춤 설계된 백본의 필요성을 제시한다.
- 가중치 학습과 아키텍처 탐색을 원샷 슈퍼넷으로 분리하는 실용적 NAS 프레임워크를 제안한다.
- 객체 탐지에서 탐색된 백본이 Detector 및 데이터셋 전반에서 ImageNet 분류에서 탐색된 백본보다 우수하다는 것을 보여준다.
- DetNASNet 및 DetNASNet (3.8)가 COCO와 VOC에서 더 낮은 계산 비용으로 우수한 정확도를 달성한다는 것을 입증한다.
제안 방법
- 탐색 공간의 모든 후보 백본을 포괄하는 원샷 슈퍼넷을 구성한다.
- 상대적 구조 성능을 반영하기 위해 경로별 샘플링 전략으로 ImageNet에서 슈퍼넷을 프리트레인한다.
- 미세조정 중 작은 배치 통계를 처리하기 위해 SyncBN으로 COCO/VOC 같은 탐지 데이터셋에서 슈퍼넷을 미세조정한다.
- FLOPs/추론 제약 하에 훈련된 슈퍼넷에서 진화 알고리즘으로 아키텍처를 탐색한다.
- 평가 중 BN 계층의 유효한 배치 통계를 보장하기 위해 평가 경로마다 배치 통계를 재계산한다.
실험 결과
연구 질문
- RQ1객체 탐지에서 직접 탐색된 백본이 ImageNet 분류에서 탐색된 백본보다 성능이 더 우수한가?
- RQ2원샷 NAS 프레임워크 내에 프리트레이닝을 통합하는 것이 탐지기용 백본 탐색의 계산 비용을 실현 가능하게 만드는가?
- RQ3NAS가 객체 탐지기(FPN, RetinaNet)와 데이터셋(COCO, VOC)에 대해 최적화될 때 어떤 아키텍처 패턴이 등장하는가?
주요 결과
- DetNASNet은 같은 탐지기(FPN) 하에서 1.3G FLOPs로 COCO에서 40.2 mmAP를 달성하여 ResNet-50을 능가한다.
- DetNASNet (3.8)은 3.8G FLOPs로 42.0 mmAP에 도달하여 ResNet-50보다 4.7%, ResNet-101보다 2.0% 우수하다.
- 동일 FLOPs(1.3G)를 가진 수작업 ShuffleNetv2-40과 비교하면 DetNASNet이 0.8 mmAP 더 좋다.
- 탐지용으로 탐색된 네트워크는 Detector와 데이터셋에 걸쳐 ImageNet 분류에서 탐색된 네트워크보다 VOC에서 3% 이상, COCO에서 1% 이상 더 우수하다.
- DetNAS 프레임워크는 약 44 GPU-일이 소요되어 표준 탐지기 학습 비용의 약 두 배로 백본 탐색을 실용적으로 만든다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.