[논문 리뷰] Bridging the Gap Between Anchor-based and Anchor-free Detection via Adaptive Training Sample Selection
본 논문은 앵커 기반 탐지기와 앵커 프리 탐지기 사이의 핵심 차이가 양성/음성으로 정의되는 방식에 있음을 보여주고, Adaptive Training Sample Selection (ATSS)을 도입해 양성/음성을 자동으로 결정함으로써 두 패러다임을 모두 개선하고 위치당 다중 앵커의 필요성을 줄인다고 제시한다.
Object detection has been dominated by anchor-based detectors for several years. Recently, anchor-free detectors have become popular due to the proposal of FPN and Focal Loss. In this paper, we first point out that the essential difference between anchor-based and anchor-free detection is actually how to define positive and negative training samples, which leads to the performance gap between them. If they adopt the same definition of positive and negative samples during training, there is no obvious difference in the final performance, no matter regressing from a box or a point. This shows that how to select positive and negative training samples is important for current object detectors. Then, we propose an Adaptive Training Sample Selection (ATSS) to automatically select positive and negative samples according to statistical characteristics of object. It significantly improves the performance of anchor-based and anchor-free detectors and bridges the gap between them. Finally, we discuss the necessity of tiling multiple anchors per location on the image to detect objects. Extensive experiments conducted on MS COCO support our aforementioned analysis and conclusions. With the newly introduced ATSS, we improve state-of-the-art detectors by a large margin to $50.7\%$ AP without introducing any overhead. The code is available at https://github.com/sfzhang15/ATSS
연구 동기 및 목표
- 훈련에서 앵커 기반과 앵커 프리 탐지기 간의 본질적 차이를 식별한다.
- 대부분의 하이퍼파라미터가 필요 없는 적응형 양성/음성 샘플 선택 방법을 제안한다.
- 위치당 다중 앵커를 타일링하는 것이 불필요함을 입증한다.
- MS COCO에서 추가 계산 비용 없이 ATSS가 앵커 기반 및 앵커 프리 탐지기 모두를 개선함을 보여준다.
제안 방법
- 각 피라미드 레벨에서 ground-truth 중심에 대해 k개에 가장 가까운 앵커를 선택하여 후보 양성을 정의한다.
- 후보들과 ground-truth 간의 IoU를 계산하고, 평균 m_g와 표준편차 v_g를 도출한 뒤, 적응 임계값 t_g = m_g + v_g를 설정한다.
- IoU >= t_g 이고 중심이 ground-truth 박스 내부인 후보를 양성으로 선택하고, 남은 앵커를 음성으로 한다.
- RetinaNet(#A=1)의 고정 양성 샘플 규칙을 대체하기 위해 ATSS를 적용하고 FCOS의 선택을 (라이트와 풀 버전) 수정한다.
- ATSS는 단 하나의 하이퍼파라미터 k만 필요하고 설정에 대해 로버스트하다고 보고한다.
실험 결과
연구 질문
- RQ1훈련에서 앵커 기반과 앵커 프리 탐지기을 차별화하는 본질적 요인은 무엇인가?
- RQ2적응형, 샘플 중심 전략이 두 탐지기 패밀리의 성능 향상을 가져올 수 있는가?
- RQ3위치당 다중 앵커를 타일링하는 것이 강한 성능에 필요한가?
주요 결과
- ATSS는 물체 통계에 기반해 양성/음성을 적응적으로 선택함으로써 성능 격차를 줄이고 추가 오버헤드 없이 COCO에서 더 높은 AP를 달성한다.
- 고정 샘플 규칙을 ATSS로 대체하면 RetinaNet(#A=1)에서 AP 지표 전반에 걸쳐 향상이 나타난다(예: AP가 37.0에서 39.3으로 증가).
- FCOS의 경우 ATSS(풀 버전)가 베이스라인과 라이트 버전 모두에서 지속적으로 AP를 개선하며, 풀 버전일수록 더 큰 이득이 있다.
- ResNet-101에서 DCN이 포함된 ResNeXt-64x4d-101까지 다양한 백본에서 ATSS는 최첨단 결과를 달성하며, 예를 들어 다중 스케일 테스트 하 COCO test-dev에서 AP가 최대 50.7%에 이른다.
- ATSS는 앵커 크기와 종횡비 변화에 대한 로버스트함을 보이고, 위치당 다중 앵커의 필요성을 줄인다.
- 하이퍼파라미터 k는 넓은 범위(대략 7–17)에서 로버스트한 것으로 나타났고, 더 작거나 큰 값은 수익이 감소하거나 음수로 돌아갈 수 있다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.