QUICK REVIEW

[논문 리뷰] R-FCN: Object Detection via Region-based Fully Convolutional Networks

Jifeng Dai, Yi Li|arXiv (Cornell University)|2016. 05. 20.

Advanced Neural Network Applications인용 수 3,435

한 줄 요약

R-FCN은 위치에 민감한 점수 맵과 위치-민감한 RoI 풀링 계층을 갖춘 영역 기반의 완전 컨볼루션 탐지로, Faster R-CNN보다 빠르면서도 경쟁력 있는 정확도를 달성합니다. 강력한 이미지 분류기(예: ResNets)를 빠르고 엔드-투-엔드 탐지기로 effectively 변환합니다.

ABSTRACT

We present region-based, fully convolutional networks for accurate and efficient object detection. In contrast to previous region-based detectors such as Fast/Faster R-CNN that apply a costly per-region subnetwork hundreds of times, our region-based detector is fully convolutional with almost all computation shared on the entire image. To achieve this goal, we propose position-sensitive score maps to address a dilemma between translation-invariance in image classification and translation-variance in object detection. Our method can thus naturally adopt fully convolutional image classifier backbones, such as the latest Residual Networks (ResNets), for object detection. We show competitive results on the PASCAL VOC datasets (e.g., 83.6% mAP on the 2007 set) with the 101-layer ResNet. Meanwhile, our result is achieved at a test-time speed of 170ms per image, 2.5-20x faster than the Faster R-CNN counterpart. Code is made publicly available at: https://github.com/daijifeng001/r-fcn

연구 동기 및 목표

객체 탐지에서 번역 불변성과 번역 가변성의 딜레마를 동기화하고 해결한다.
이미지 전반에 걸쳐 거의 모든 계산을 공유하는 영역 기반 탐지기를 개발한다.
RoI 이후 컨볼루션 계층 없이 공간 정보를 부호화하기 위해 위치-민감한 점수 맵과 위치-민감한 RoI 풀링 계층을 도입한다.
엔드-투-엔드 학습 가능성과 ResNet 백본과의 호환성을 보여 주어 효율적인 탐지를 달성한다.

제안 방법

이미지 전반에 걸친 공유된 컨벌루션 특성 맵을 갖는 영역 기반 완전 컨벌루션 네트워크(R-FCN)를 구축한다.
C개의 객체 카테고리(+1 배경)에 대한 k^2 위치-민감도 점수 맵 뱅크를 생성한다.
RoI 풀링의 각 RoI 빈이 대응하는 점수 맵에서 풀링되도록 위치-민감한 RoI 풀링 계층을 사용하여 RoI 풀링 이후 가중 레이어 없이 공간 투표를 가능하게 한다.
온라인 하드 예제 마이닝(OHEM)을 필요시 사용하여 분류 및 경계 상자 회귀 손실을 결합한 엔드-투-엔드 학습을 수행한다.
백본의 스트라이드 조정과 인필터(아트루스 합성) 컨볼루션을 사용해 RoI 해상도를 높이면서 RPN과 계산 공유를 유지한다.
PASCAL VOC 및 MS COCO에서 Faster R-CNN 및 다른 완전 컨벌루셔널 전략과 비교한다.

실험 결과

연구 질문

RQ1완전 컨벌루션이면서 영역 기반 탐지기가 이미지 전반의 대부분의 계산을 공유하면서 경쟁력 있는 정확도를 달성할 수 있는가?
RQ2점수 맵 뱅크를 통한 위치 정보 인코딩이 RoI별 추가 계산 없이 로컬라이제이션을 개선하는가?
RQ3ResNet-101과 같은 현대 백본에서 R-FCN은 Faster R-CNN에 비해 표준 벤치마크에서 어떻게 성능을 내는가?
RQ4위치-민감한 RoI 풀링 대 전통적 RoI 풀링을 사용할 때 속도와 정확도 간의 트레이드오프는 어떠한가?
RQ5공유 특성 맵과 RPN 통합으로 엔드-투-엔드 학습이 가능하고 효율적인가?

주요 결과

training data	mAP	test time (sec/img)
Faster R-CNN 07+12	76.4	0.42
Faster R-CNN+++ 07+12+CO	85.6	3.36
R-FCN 07+12	79.5	0.17
R-FCN ms train 07+12	80.5	0.17
R-FCN ms train 07+12+COCO	83.6	0.17

R-FCN은 ResNet-101로 VOC 2007 테스트에서 83.6% mAP를 달성하고 VOC 2012 테스트에서 82.0%를 달성한다.
ResNet-101에서 R-FCN은 K40 GPU에서 이미지당 170 ms로 실행되며 동일 백본을 가진 Faster R-CNN보다 2.5~20배 빠르다.
위치-민감도 점수 맵 및 RoI 풀링은 RoI 풀링 이후 추가적으로 완전 연결층 없이 엔드-투-엔드 학습을 가능하게 한다.
R-FCN의 성능은 Faster R-CNN과 경쟁하며, 300 RoIs에서 VOC07에서 76.6% mAP를 달성하고 RoI당 비용이 크게 낮다.
MS COCO에서 R-FCN은 ResNet-101로 Faster R-CNN에 근접하며 다중 스케일 테스트 시 53.2 AP(IoU 0.5:0.95)를 달성하고도 훨씬 빠르다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.