[논문 리뷰] Receptive Field Block Net for Accurate and Fast Object Detection
이 논문은 가벼운 SSD 기반 탐지기의 성능을 향상시키기 위해 Receptive Field Block (RFB)을 도입하여 실시간 속도를 유지하면서 깊은 백본과 비견될 만큼 높은 정확도를 달성한다. RFB Net은 VOC와 COCO에서 여러 실시간 탐지기보다 우수한 성능을 보인다.
Current top-performing object detectors depend on deep CNN backbones, such as ResNet-101 and Inception, benefiting from their powerful feature representations but suffering from high computational costs. Conversely, some lightweight model based detectors fulfil real time processing, while their accuracies are often criticized. In this paper, we explore an alternative to build a fast and accurate detector by strengthening lightweight features using a hand-crafted mechanism. Inspired by the structure of Receptive Fields (RFs) in human visual systems, we propose a novel RF Block (RFB) module, which takes the relationship between the size and eccentricity of RFs into account, to enhance the feature discriminability and robustness. We further assemble RFB to the top of SSD, constructing the RFB Net detector. To evaluate its effectiveness, experiments are conducted on two major benchmarks and the results show that RFB Net is able to reach the performance of advanced very deep detectors while keeping the real-time speed. Code is available at https://github.com/ruinmessi/RFBNet.
연구 동기 및 목표
- 매우 깊은 백본에 의존하지 않고 높은 정확도로 실시간 객체 탐지를 목표로 삼는다.
- 가벼운 네트워크에서 특징 판별력을 향상시키기 위해 신경과학에서 영감을 받은 receptive field 특성을 활용한다.
- SSD 위에 RFB 모듈을 삽입하여 실용적인 탐지기를 개발하고 VOC와 COCO에서 평가한다.
제안 방법
- 다양한 커널 크기를 가지는 다분기 합성곱으로 여러 RF 크기를 시뮬레이션하는 Receptive Field Block (RFB)을 제안한다.
- ResNet/Inception 스타일 잔여 연결과 함께 병목 구조 및 팩터화 합성곱(1x1, 3x3 및 1xN / Nx1 변형)을 사용한다.
- 편향된 RF 확장을 모델링하기 위해 확장된 풀링/합성곱 층을 부착하고, 가지들을 결합하여 향상된 특징을 형성한다.
- 상위 SSD 층을 RFB로 교체하고(더 작은 RF를 위한 RFB-s 변형 포함) VGG16 백본에서 RFB Net을 구성한다.
- SSD 스타일 손실, 데이터 증강, hard negative mining으로 학습하고; 워밍업 학습률 전략과 표준 스케줄을 채용한다.
- COCO의 경우 정확도를 높이기 위한 소형 아키텍처 수정(업샘플링 conv7, 7x7 가지)을 탐색하여 속도 손실은 완화한다.
실험 결과
연구 질문
- RQ1RF 영감 모듈이 경량 백본에서 실시간 속도로 경쟁력 있는 정확도를 달성할 수 있는가?
- RQ2수치-편향적 receptive field 관계를 시뮬레이션하는 것이 검출의 강건성과 판별력을 개선하는가?
- RQ3RFB Net이 VOC와 COCO에서 최첨단 단일 및 이단계 탐지기와 비교했을 때 어떤 위치에 있는가?
주요 결과
- RFB Net300 (VGG 백본)은 VOC2007에서 실시간 속도(83 FPS)로 80.5% mAP를 달성한다.
- RFB Net512 (VGG)은 38 FPS로 VOC2007에서 82.2% mAP에 도달하여 많은 실시간 탐지기와 일부 2단계 탐지기보다 뛰어나다.
- COCO에서 RFB Net300은 test-dev에서 30.3% mAP, 0.5:0.95 범위에서 49.3%를 달성하여 SSD300*를 능가하고 더 가벼운 백본으로 R-FCN 수준의 성능에 근접한다.
- SSD에 장착된 RFB 모듈은 VOC2007 및 COCO minival에서 Inception, ASPP, Deformable CNN 블록을 능가한다.
- RFB Net512-E (향상된 RFB)를 사용한 COCO는 34.4% mAP를 약간의 속도 증가로 얻어 우수한 속도-정확도 트레이드-오프를 시사한다.
- RFB를 MobileNet-SSD에 연결하면 경량 백본에서 일반화 및 정확도 향상을 확인한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.