[논문 리뷰] Corner Proposal Network for Anchor-free, Two-stage Object Detection
이 논문은 객체 감지 프레임워크인 코너 제안 네트워크(CPN)를 제안한다. CPN은 앵커 기반 기반의 방법과 앵커리스 기반의 방법의 장점을 융합하여, 먼저 객체의 왼쪽 위 및 오른쪽 아래 코너를 검출하여 객체 제안을 생성하고, 이후 두 단계의 분류 단계를 통해 잡음 제거 및 클래스 레이블 할당을 수행한다. CPN은 MS-COCO에서 49.2%의 AP를 달성하여, 이전에 가장 우수한 앵커리스 감지기인 CenterNet보다 2.2% 놈리 향상되었으며, 경량 백본을 사용할 경우 43.3 FPS에서 41.6%의 AP를 유지하여 높은 효율성도 확보하였다.
The goal of object detection is to determine the class and location of objects in an image. This paper proposes a novel anchor-free, two-stage framework which first extracts a number of object proposals by finding potential corner keypoint combinations and then assigns a class label to each proposal by a standalone classification stage. We demonstrate that these two stages are effective solutions for improving recall and precision, respectively, and they can be integrated into an end-to-end network. Our approach, dubbed Corner Proposal Network (CPN), enjoys the ability to detect objects of various scales and also avoids being confused by a large number of false-positive proposals. On the MS-COCO dataset, CPN achieves an AP of 49.2% which is competitive among state-of-the-art object detection methods. CPN also fits the scenario of computational efficiency, which achieves an AP of 41.6%/39.7% at 26.2/43.3 FPS, surpassing most competitors with the same inference speed. Code is available at https://github.com/Duankaiwen/CPNDet
연구 동기 및 목표
- 앵커 기반 및 앵커리스 감지기의 한계를 해결하기 위해, 앵커리스 제안 생성에서 얻는 높은 재현율과 전용 분류 단계에서 얻는 높은 정밀도를 융합하고자 한다.
- CornerNet 및 CenterNet과 같은 방법에서 발생하는 잘못된 키포인트 조합으로 인한 잡음 제거를 위해, 키포인트 기반 객체 감지에서의 잡음 비율을 감소시키고자 한다.
- 단계 간 공유 계산과 경량 백본을 활용함으로써, 이단계 객체 감지가 정확하고도 효율적일 수 있음을 입증하고자 한다.
- 특히 실시간 환경에서 높은 추론 속도를 유지하면서도 경쟁력 있는 AP 성능을 달성하고자 한다.
제안 방법
- 키포인트 검출 헤드를 사용해 왼쪽 위 및 오른쪽 아래 코너 키포인트를 검출하며, CornerNet과 유사하지만 인스턴스 임베딩을 사용하지 않고, 유효한 모든 코너 쌍을 객체 제안으로 나열한다.
- 이중 단계 분류 파이프라인을 적용한다: 첫 번째로, 지역적 특징을 기반으로 실제 객체에 해당하지 않는 제안을 이진 분류기로 제거한다.
- 두 번째로, 더 강력한 특징을 사용해 남은 제안들을 재정렬하고 정확한 클래스 레이블을 할당하는 다중 클래스 분류기를 적용한다.
- 네트워크는 엔드 투 엔드로 훈련 가능하며, 두 단계 모두에서 공유된 백본 특징을 사용해 계산 효율성을 향상시킨다.
- 정확도 향상을 위해 104층의 스택드 아워거글라스 네트워크를 백본으로 사용하고, 속도 최적화를 위해 DLA-34를 사용한다.
- 이미지 플립 증강 기능을 비활성화하고 경량 백본을 사용함으로써 추론 속도를 추가로 향상시켜 실시간 성능을 달성한다.
실험 결과
연구 질문
- RQ1앵커리스, 이단계 객체 감지 프레임워크가 제안 생성과 분류를 분리함으로써, 일단계 앵커리스 감지기보다 더 높은 정확도를 달성할 수 있는가?
- RQ2전용 분류 단계가 키포인트 기반 감지기에서 발생하는 잘못된 키포인트 쌍 조합으로 인한 잡음 비율을 크게 감소시키는가?
- RQ3경량 백본을 사용할 경우에도 이단계 감지기가 높은 추론 속도를 유지하면서 최고 수준의 정확도를 달성할 수 있는가?
- RQ4희귀한 형상의 객체에 대해 제안된 방법이 CornerNet 및 CenterNet과 같은 기존 앵커리스 감지기와 비교해 재현율 측면에서 어떻게 성능을 내는가?
주요 결과
- CPN은 MS-COCO에서 49.2%의 AP를 달성하여, 이전까지 가장 뛰어난 앵커리스 감지기인 CenterNet보다 2.2% 놈리 향상되었다.
- 극단적인 종횡비 또는 이질적인 크기의 객체를 검출할 때 뚜렷한 정확도 향상을 보이며, 앵커리스 제안 생성의 장점을 입증하였다.
- DLA-34 백본을 사용하고 플립 증강을 비활성화한 경우, CPN은 43.3 FPS에서 41.6%의 AP를 기록하여 유사한 추론 속도를 가진 대부분의 경쟁자들을 능가하였다.
- 104층 아워거글라스 백본을 사용할 경우, CPN은 7.3 FPS에서 46.8%의 AP를 기록하여, 동일한 조건에서 CornerNet 및 CenterNet을 모두 능가하였다.
- 이중 단계 분류 파이프라인은 잡음 비율을 효과적으로 제거한다. 시각화 결과에서 CPN은 CornerNet 및 CenterNet에서 살아남는 많은 잡음 제안을 제거하는 것으로 나타났다.
- 단계 간 특징 공유를 통해 CPN은 속도와 정확도 사이의 유리한 트레이드오���을 달성하였으며, 이단계 감지기가 반드시 느리지 않다는 점을 입증하였다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.