[논문 리뷰] Scale-Aware Trident Networks for Object Detection
TridentNet은 공유 가중치를 가진 병렬 가지를 통해 스케일에 따라 다른 수용 영역을 갖는 스케일 특정 특징 맵을 도입하고, 스케일 인식 샘플링으로 훈련되어, 추가 매개변수 없이 상태-최상 단일 모델 COCO 결과를 달성한다(예: 설정에 따라 46.8–48.4 AP).
Scale variation is one of the key challenges in object detection. In this work, we first present a controlled experiment to investigate the effect of receptive fields for scale variation in object detection. Based on the findings from the exploration experiments, we propose a novel Trident Network (TridentNet) aiming to generate scale-specific feature maps with a uniform representational power. We construct a parallel multi-branch architecture in which each branch shares the same transformation parameters but with different receptive fields. Then, we adopt a scale-aware training scheme to specialize each branch by sampling object instances of proper scales for training. As a bonus, a fast approximation version of TridentNet could achieve significant improvements without any additional parameters and computational cost compared with the vanilla detector. On the COCO dataset, our TridentNet with ResNet-101 backbone achieves state-of-the-art single-model results of 48.4 mAP. Codes are available at https://git.io/fj5vR.
연구 동기 및 목표
- 수용 영역 크기가 스케일 변화에 따른 탐지에 어떤 영향을 미치는지 조사한다.
- 공유 가중치를 갖는 다중 가지 Trident 아키텍처를 제안하여 스케일 특정 특징을 생성한다.
- 객체 스케일에 각 가지를 특화시키기 위한 스케일 인식 학습 기법을 개발한다.
- 추가 매개변수 없이 성능을 유지하는 빠른 추론 변형을 제공한다.
- COCO에서 TridentNet을 최첨단 검출기와 비교 평가하고 소거(ablation) 실험을 분석한다.
제안 방법
- 일부 백본 블록을 매개변수를 공유하지만 서로 다른 확장률을 사용하는 트라이던트 블록으로 대체하여 TridentNets를 구성한다.
- 브랜치 간 가중치 공유를 사용하여 전체 매개변수 수를 기준선과 같게 유지한다.
- 브랜치별로 미리 정의된 유효 범위 내에 있는 스케일의 RoI를 선택하여 스케일 인식 학습을 적용한다.
- 추론 중 가지의 출력은 NMS를 통해 융합하여 최종 탐지를 생성한다; 주요 가지 하나를 사용하는 빠른 TridentNet Fast 변형을 포함한다.
- 성능을 보존하면서 추론에 중간 가지를 사용하는 빠른 근사치를 제공한다.
실험 결과
연구 질문
- RQ1수용 영역을 다르게 하는 것이 객체 스케일 전반에 걸친 탐지 성능에 어떤 영향을 미치는가?
- RQ2매개변수를 늘리지 않으면서 다중 가지, 스케일 인식 네트워크가 스케일 전반에 걸쳐 균일한 표현 능력을 달성할 수 있는가?
- RQ3가중치 공유와 스케일 인식 학습이 단일 가지 기준선 대비 전체 탐지 정확도에 미치는 영향은 어느 정도인가?
주요 결과
| Backbone | Method | AP | AP50 | AP75 | APs | APm | APl |
|---|---|---|---|---|---|---|---|
| ResNet-101 | TridentNet | 40.6 | 61.8 | 23.0 | 45.5 | 55.9 | |
| ResNet-101-Deformable | TridentNet | 41.8 | 62.9 | 23.6 | 46.8 | 57.1 | |
| ResNet-101-Deformable | TridentNet* | 46.8 | 67.6 | 51.5 | 28.0 | 51.2 | 60.5 |
| ResNet-101-Deformable | TridentNet* + Image Pyramid | 48.4 | 69.7 | 53.5 | 31.8 | 51.3 | 60.3 |
- 수용 영역을 확대하면 큰 물체에는 도움이 되나 작은 물체에는 해가 될 수 있어 스케일 인식의 가지별 처리가 필요함을 시사한다.
- 공유 가중치와 스케일 인식 학습을 갖춘 3-가지 TridentNet은 기준선 대비 AP를 향상시키며 (예: ResNet-101에서 COCO minival의 37.9에서 40.6으로 증가).
- 변형 가능(backbone)을 사용할 경우 TridentNet이 더 높은 AP를 달성한다 (예: 41.8 대 39.9의 기준선).
- 세 가지 가지를 갖춘 TridentNet은 이미지 피라미드 없이 COCO test-dev에서 46.6–46.8 AP에 도달하고, 이미지 피라미드를 사용하면 48.4 AP에 도달한다(단일 모델, ResNet-101-Deformable, TridentNet*).
- 주요 가지를 사용하는 빠른 추론 변형(TridentNet Fast)은 추가 매개변수나 계산 없이 거의 동일한 성능을 달성한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.