[논문 리뷰] Revisiting Feature Alignment for One-stage Object Detection
본 논문은 RoIConv을 도입하여 바운딩 박스와 특징을 한 단계 탐지기에서 정렬하고, 학습된 앵커를 사용하며 속도를 희생하지 않는 Fully Convolutional AlignDet를 통해 최신 COCO 성능을 달성합니다.
Recently, one-stage object detectors gain much attention due to their simplicity in practice. Its fully convolutional nature greatly reduces the difficulty of training and deployment compared with two-stage detectors which require NMS and sorting for the proposal stage. However, a fundamental issue lies in all one-stage detectors is the misalignment between anchor boxes and convolutional features, which significantly hinders the performance of one-stage detectors. In this work, we first reveal the deep connection between the widely used im2col operator and the RoIAlign operator. Guided by this illuminating observation, we propose a RoIConv operator which aligns the features and its corresponding anchors in one-stage detection in a principled way. We then design a fully convolutional AlignDet architecture which combines the flexibility of learned anchors and the preciseness of aligned features. Specifically, our AlignDet achieves a state-of-the-art mAP of 44.1 on the COCO test-dev with ResNeXt-101 backbone.
연구 동기 및 목표
- 하나-스테이지 탐지기에서 앵커 상자와 컨볼루션 특징 사이의 정렬 불일치를 식별한다.
- 이 격차를 해소하기 위한 원칙적 특징 정렬 방법을 제안한다.
- 정렬이 정확한 학습된 앵커를 활용하는 완전 컨볼루셔널 검출기를 개발한다.
- 최소한의 앵커 설계로 COCO에서 최첨단 성능을 입증한다.
제안 방법
- im2col과 RoIAlign의 연관성을 밝히고 새로운 RoIConv 연산자를 모티브로 삼는다.
- 앵커 유도 오프셋을 사용하여 모든 위치에서 특징을 앵커와 정렬하는 RoIConv를 정의한다.
- Dense Proposal Module(DPM)과 Aligned Detection Module(ADM)을 갖춘 Fully Convolutional AlignDet를 구성한다.
- ADM에 RoIConv를 통합하여 하나-스테이지 탐지기에서 정밀하고 플러그-앤-플레이 가능한 정합을 가능하게 한다.
- RoIConv를 기본 conv, 변형 가능 conv, 앵커 주도 변형 가능 conv와 비교하기 위한 분석(ablation)을 수행한다.
실험 결과
연구 질문
- RQ1앵커와 백본 특징 간의 명시적 특징 정렬이 속도를 희생하지 않으면서 하나-스테이지 탐지기를 개선할 수 있는가?
- RQ2RoIConv가 다중 스케일 특징을 넘어 원칙적이고 위치 의식적인 정합을 제공하는가?
- RQ3학습된 앵커가 정합과 상호 작용하여 COCO에서 탐지 정확도에 어떤 영향을 미치는가?
주요 결과
- RoIConv은 효과적이고 효율적인 특징 정합을 제공하여 단일 스케일 RetinaNet을 5.0 AP 향상시킨다.
- AlignDet with ADM은 1 앵커로 ResNet-50 FPN에서 37.9 AP, ResNet-101 FPN에서 39.8 AP를 달성하여 다중 앵커를 사용하는 RetinaNet을 능가한다.
- ResNet-101 FPN 및 1 앵커를 사용한 AlignDet은 COCO minival에서 39.8 AP와 52.8 APl에 도달하며 RetinaNet 기준을 상회한다.
- ResNet 백본에서 RetinaNet 대비 minival의 AP가 5.5–5.3 포인트 증가한다.
- 더 큰 커널과 더 높은 출력 채널의 RoIConv 설계가 더 높은 AP를 낳으며, 7x7 커널과 1024 채널에서 주목할 만한 이득이 있다.
- ResNeXt-101-FPN 백본으로 COCO test-dev에서 AlignDet은 44.1 AP를 달성하여 RetinaNet보다 3.3 AP 높고 속도는 유지된다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.