QUICK REVIEW

[논문 리뷰] Corner Proposal Network for Anchor-free, Two-stage Object Detection

Kaiwen Duan, Lingxi Xie|arXiv (Cornell University)|2020. 07. 27.

Advanced Neural Network Applications참고 문헌 50인용 수 25

한 줄 요약

이 논문은 객체 감지 프레임워크인 코너 제안 네트워크(CPN)를 제안한다. CPN은 앵커 기반 기반의 방법과 앵커리스 기반의 방법의 장점을 융합하여, 먼저 객체의 왼쪽 위 및 오른쪽 아래 코너를 검출하여 객체 제안을 생성하고, 이후 두 단계의 분류 단계를 통해 잡음 제거 및 클래스 레이블 할당을 수행한다. CPN은 MS-COCO에서 49.2%의 AP를 달성하여, 이전에 가장 우수한 앵커리스 감지기인 CenterNet보다 2.2% 놈리 향상되었으며, 경량 백본을 사용할 경우 43.3 FPS에서 41.6%의 AP를 유지하여 높은 효율성도 확보하였다.

ABSTRACT

The goal of object detection is to determine the class and location of objects in an image. This paper proposes a novel anchor-free, two-stage framework which first extracts a number of object proposals by finding potential corner keypoint combinations and then assigns a class label to each proposal by a standalone classification stage. We demonstrate that these two stages are effective solutions for improving recall and precision, respectively, and they can be integrated into an end-to-end network. Our approach, dubbed Corner Proposal Network (CPN), enjoys the ability to detect objects of various scales and also avoids being confused by a large number of false-positive proposals. On the MS-COCO dataset, CPN achieves an AP of 49.2% which is competitive among state-of-the-art object detection methods. CPN also fits the scenario of computational efficiency, which achieves an AP of 41.6%/39.7% at 26.2/43.3 FPS, surpassing most competitors with the same inference speed. Code is available at https://github.com/Duankaiwen/CPNDet

연구 동기 및 목표

앵커 기반 및 앵커리스 감지기의 한계를 해결하기 위해, 앵커리스 제안 생성에서 얻는 높은 재현율과 전용 분류 단계에서 얻는 높은 정밀도를 융합하고자 한다.
CornerNet 및 CenterNet과 같은 방법에서 발생하는 잘못된 키포인트 조합으로 인한 잡음 제거를 위해, 키포인트 기반 객체 감지에서의 잡음 비율을 감소시키고자 한다.
단계 간 공유 계산과 경량 백본을 활용함으로써, 이단계 객체 감지가 정확하고도 효율적일 수 있음을 입증하고자 한다.
특히 실시간 환경에서 높은 추론 속도를 유지하면서도 경쟁력 있는 AP 성능을 달성하고자 한다.

제안 방법

키포인트 검출 헤드를 사용해 왼쪽 위 및 오른쪽 아래 코너 키포인트를 검출하며, CornerNet과 유사하지만 인스턴스 임베딩을 사용하지 않고, 유효한 모든 코너 쌍을 객체 제안으로 나열한다.
이중 단계 분류 파이프라인을 적용한다: 첫 번째로, 지역적 특징을 기반으로 실제 객체에 해당하지 않는 제안을 이진 분류기로 제거한다.
두 번째로, 더 강력한 특징을 사용해 남은 제안들을 재정렬하고 정확한 클래스 레이블을 할당하는 다중 클래스 분류기를 적용한다.
네트워크는 엔드 투 엔드로 훈련 가능하며, 두 단계 모두에서 공유된 백본 특징을 사용해 계산 효율성을 향상시킨다.
정확도 향상을 위해 104층의 스택드 아워거글라스 네트워크를 백본으로 사용하고, 속도 최적화를 위해 DLA-34를 사용한다.
이미지 플립 증강 기능을 비활성화하고 경량 백본을 사용함으로써 추론 속도를 추가로 향상시켜 실시간 성능을 달성한다.

실험 결과

연구 질문

RQ1앵커리스, 이단계 객체 감지 프레임워크가 제안 생성과 분류를 분리함으로써, 일단계 앵커리스 감지기보다 더 높은 정확도를 달성할 수 있는가?
RQ2전용 분류 단계가 키포인트 기반 감지기에서 발생하는 잘못된 키포인트 쌍 조합으로 인한 잡음 비율을 크게 감소시키는가?
RQ3경량 백본을 사용할 경우에도 이단계 감지기가 높은 추론 속도를 유지하면서 최고 수준의 정확도를 달성할 수 있는가?
RQ4희귀한 형상의 객체에 대해 제안된 방법이 CornerNet 및 CenterNet과 같은 기존 앵커리스 감지기와 비교해 재현율 측면에서 어떻게 성능을 내는가?

주요 결과

CPN은 MS-COCO에서 49.2%의 AP를 달성하여, 이전까지 가장 뛰어난 앵커리스 감지기인 CenterNet보다 2.2% 놈리 향상되었다.
극단적인 종횡비 또는 이질적인 크기의 객체를 검출할 때 뚜렷한 정확도 향상을 보이며, 앵커리스 제안 생성의 장점을 입증하였다.
DLA-34 백본을 사용하고 플립 증강을 비활성화한 경우, CPN은 43.3 FPS에서 41.6%의 AP를 기록하여 유사한 추론 속도를 가진 대부분의 경쟁자들을 능가하였다.
104층 아워거글라스 백본을 사용할 경우, CPN은 7.3 FPS에서 46.8%의 AP를 기록하여, 동일한 조건에서 CornerNet 및 CenterNet을 모두 능가하였다.
이중 단계 분류 파이프라인은 잡음 비율을 효과적으로 제거한다. 시각화 결과에서 CPN은 CornerNet 및 CenterNet에서 살아남는 많은 잡음 제안을 제거하는 것으로 나타났다.
단계 간 특징 공유를 통해 CPN은 속도와 정확도 사이의 유리한 트레이드오��을 달성하였으며, 이단계 감지기가 반드시 느리지 않다는 점을 입증하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.