[논문 리뷰] Cascade R-CNN: High Quality Object Detection and Instance Segmentation
Cascade R-CNN은 각 단계가 더 높은 IoU 임계값으로 학습되는 다단계 탐지기를 도입하여 바운딩 박스 품질을 점진적으로 개선하고 추론을 더 높은 품질의 가설과 일치시키며, Cascade Mask R-CNN으로 인스턴스 분할로 확장된다.
In object detection, the intersection over union (IoU) threshold is frequently used to define positives/negatives. The threshold used to train a detector defines its extit{quality}. While the commonly used threshold of 0.5 leads to noisy (low-quality) detections, detection performance frequently degrades for larger thresholds. This paradox of high-quality detection has two causes: 1) overfitting, due to vanishing positive samples for large thresholds, and 2) inference-time quality mismatch between detector and test hypotheses. A multi-stage object detection architecture, the Cascade R-CNN, composed of a sequence of detectors trained with increasing IoU thresholds, is proposed to address these problems. The detectors are trained sequentially, using the output of a detector as training set for the next. This resampling progressively improves hypotheses quality, guaranteeing a positive training set of equivalent size for all detectors and minimizing overfitting. The same cascade is applied at inference, to eliminate quality mismatches between hypotheses and detectors. An implementation of the Cascade R-CNN without bells or whistles achieves state-of-the-art performance on the COCO dataset, and significantly improves high-quality detection on generic and specific object detection datasets, including VOC, KITTI, CityPerson, and WiderFace. Finally, the Cascade R-CNN is generalized to instance segmentation, with nontrivial improvements over the Mask R-CNN. To facilitate future research, two implementations are made available at \url{https://github.com/zhaoweicai/cascade-rcnn} (Caffe) and \url{https://github.com/zhaoweicai/Detectron-Cascade-RCNN} (Detectron).
연구 동기 및 목표
- 더 높은 IoU 임계값(u)에 의해 정의되는 고품질 객체 탐지의 필요성을 제시한다.
- 감지기 품질을 점진적으로 더 높은 품질의 가설에 맞추는 계단식 아키텍처를 제안한다.
- IoU 수준에 걸쳐 학습 데이터를 재샘플링하여 과적합 및 추론 시 품질 불일치를 해결한다.
- 계단식 구성이 다양한 데이터셋에서 로컬라이제이션을 향상시키고 근접한 오탐(false positives)을 줄임을 보여준다.
제안 방법
- Cascade R-CNN을 소개한다. 이는 Faster R-CNN의 다단계 확장으로, 증가하는 IoU 임계값에서 학습된 계단식 바운딩 박스 회귀기와 분류기로 구성된다.
- 각 단계에서 학습 샘플 규모를 대략 일정하게 유지하면서 더 높은 IoU 가설을 생성하기 위한 재샘플링 메커니즘으로 계단식 회귀를 사용한다.
- 추론 시에도 같은 계단식을 적용하여 가설을 점진적으로 세분화하고 탐지기의 강도를 가설 품질에 맞춘다.
- 다중 작업 학습의 안정성을 위해 바운딩 박스 회귀 타깃에 평균/분산 정규화를 제공한다.
- 세그먼트 분기를 통합하여 계단식을 인스턴스 분할로 확장하고 Cascade Mask R-CNN을 얻는다.
실험 결과
연구 질문
- RQ1계단식으로 IoU 임계값이 증가하는 상태로 학습된 탐지기가 각 단계에서 충분한 양의 양성을 유지함으로써 고품질 탐지의 역설을 극복할 수 있는가?
- RQ2바운딩 박스 회귀와 분류를 모두 계단식으로 구성하는 것이 과적합 없이 높은 IoU 탐지를 개선하는가?
- RQ3계단식 접근이 다양한 데이터셋에 걸쳐 이익이 있으며 기존 탐지/분할 향상과 호환되는가?
주요 결과
- 간단한 Cascade R-CNN 구현이 COCO에서 과하지 않은 장식 없이 최첨단 성능을 달성한다.
- 다양한 베이스라인에서 계산 비용이 비교적 적은 오차율에서 2~4 포인트의 정확도 향상을 가져오며(섹션 노트 참조), 로컬라이제이션 지표가 더 엄격할수록 이득이 크다.
- 계단식 바운딩 박스 회귀는 IoU 품질을 점진적으로 높이고, 계단식 탐지는 각 단계에서 강력한 양성 샘플 집합을 유지하여 높은 IoU 임계값에서의 과적합을 완화한다.
- 추론 시 계단식을 적용하면 가설의 품질이 점진적으로 높아져 더 높은 품질의 탐지기와 더 잘 맞는다.
- Cascade를 인스턴스 분할로 확장한 Cascade Mask R-CNN은 다수의 데이터셋에서 Mask R-CNN에 비해 실질적인 개선을 보인다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.