QUICK REVIEW

[논문 리뷰] Double-Head RCNN: Rethinking Classification and Localization for Object Detection

Yue Wu, Yinpeng Chen|arXiv (Cornell University)|2019. 04. 13.

Advanced Neural Network Applications인용 수 9

한 줄 요약

이 논문은 분류와 회귀를 분리하여 각각 완전 연결 헤드를 분류에, 컨volutional 헤드를 바운딩 박스 회귀에 할당하는 새로운 객체 검출 프레임워크인 Double-Head R-CNN을 제안한다. 각 헤드의 구조적 장점을 유용하게 활용함으로써, ResNet-50 및 ResNet-101 기반의 FPN 기반 모델 대비 MS COCO에서 각각 +3.5 및 +2.8 AP 향상을 달성한다.

ABSTRACT

Two head structures (i.e. fully connected head and convolution head) have been widely used in R-CNN based detectors for classification and localization tasks. However, there is a lack of understanding of how does these two head structures work for these two tasks. To address this issue, we perform a thorough analysis and find an interesting fact that the two head structures have opposite preferences towards the two tasks. Specifically, the fully connected head (fc-head) is more suitable for the classification task, while the convolution head (conv-head) is more suitable for the localization task. Furthermore, we examine the output feature maps of both heads and find that fc-head has more spatial sensitivity than conv-head. Thus, fc-head has more capability to distinguish a complete object from part of an object, but is not robust to regress the whole object. Based upon these findings, we propose a Double-Head method, which has a fully connected head focusing on classification and a convolution head for bounding box regression. Without bells and whistles, our method gains +3.5 and +2.8 AP on MS COCO dataset from Feature Pyramid Network (FPN) baselines with ResNet-50 and ResNet-101 backbones, respectively.

연구 동기 및 목표

완전 연결 헤드와 컨볼루션 헤드가 R-CNN 기반 검출기에서 분류 및 국소화 작업에 대해 각각 어떤 역할을 하는지 조사하기.
기존의 두 헤드 설계가 헤드-작업 할당이 맞지 않아 성능이 저하되는 이유를 이해하기.
각 헤드 구조의 공간 민감도와 특징 표현 능력을 분석하기.
실험적 발견을 바탕으로 두 헤드 검출기의 헤드 할당 방식을 재고하기.
추가 구성 요소나 복잡한 트릭 없이 MS COCO에서 최신 기술 수준의 성능을 달성하기.

제안 방법

완전 연결 헤드를 분류 전용, 컨볼루션 헤드를 바운딩 박스 회귀 전용으로 할당하는 Double-Head R-CNN 아키텍처를 도입한다.
완전 연결 헤드의 높은 공간 민감도를 활용하여 분류 과정에서 전체 객체와 부분 객체를 더 잘 구별할 수 있도록 한다.
컨볼루션 헤드는 바운딩 박스 좌표를 회귀하는 데 더 우수한 내구성을 보이므로 국소화에 사용된다.
특징 피라미드 네트워크(Feature Pyramid Network, FPN)를 넥으로 사용하여 ResNet-50 및 ResNet-101 백본을 기반으로 MS COCO에서 설계를 검증한다.
추가 구성 요소나 학습 기법을 사용하지 않아 성능 향상가가 순수하게 아키텍처 재고에서 기인함을 보장한다.

실험 결과

연구 질문

RQ1완전 연결 헤드와 컨볼루션 헤드는 분류 작업과 국소화 작업 중 어느 쪽에 더 적합한가?
RQ2각 헤드 구조의 공간 민감도는 어떻게 되며, 객체 인식 및 국소화에 어떤 영향을 미치는가?
RQ3각 헤드를 그에 적합한 작업에 재할당하면 검출 성능 향상이 가능할까?
RQ4기존 R-CNN 검출기에서 두 헤드 설계가 왜 각 헤드의 장점을 충분히 활용하지 못하는가?
RQ5헤드 할당을 분리하는 전략이 다양한 백본 아키텍처 간 일관된 AP 향상 효과를 가져오는가?

주요 결과

완전 연결 헤드는 더 높은 공간 민감도를 보이며, 전체 객체와 부분 객체를 더 효과적으로 구별하는 데 유리하다.
컨볼루션 헤드는 바운딩 박스 회귀에 더 강력하여 국소화 작업에서 완전 연결 헤드를 능가한다.
완전 연결 헤드를 분류, 컨볼루션 헤드를 국소화에 재할당하면 ResNet-50 백본 기반에서 MS COCO에서 +3.5 AP 향상이 달성된다.
유사한 재할당 전략은 ResNet-101 백본 기반에서도 +2.8 AP 향상을 가져와 아키텍처 간 일관된 성능 향상을 입증한다.
추가 구성 요소나 학습 수정 없이도 성능 향상이 달성되어 아키텍처 재고의 효과성을 입증한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.