[논문 리뷰] Bounding Box Regression with Uncertainty for Accurate Object Detection
논문은 경계 상자 로컬라이제이션과 좌표별 불확실성을 함께 학습하기 위해 KL Loss를 도입하고, NMS 중 분산 가중치 투표(var voting) 스킴으로 로컬라이제이션을 개선하되 계산은 거의 변하지 않도록 한다.
Large-scale object detection datasets (e.g., MS-COCO) try to define the ground truth bounding boxes as clear as possible. However, we observe that ambiguities are still introduced when labeling the bounding boxes. In this paper, we propose a novel bounding box regression loss for learning bounding box transformation and localization variance together. Our loss greatly improves the localization accuracies of various architectures with nearly no additional computation. The learned localization variance allows us to merge neighboring bounding boxes during non-maximum suppression (NMS), which further improves the localization performance. On MS-COCO, we boost the Average Precision (AP) of VGG-16 Faster R-CNN from 23.6% to 29.1%. More importantly, for ResNet-50-FPN Mask R-CNN, our method improves the AP and AP90 by 1.8% and 6.2% respectively, which significantly outperforms previous state-of-the-art bounding box refinement methods. Our code and models are available at: github.com/yihui-he/KL-Loss
연구 동기 및 목표
- MS-COCO와 같은 대규모 데이터셋에서 실측 정답 경계 상자가 본질적으로 모호하다는 점에 주목한다.
- 로컬라이제이션과 불확실성을 함께 학습하는 확률적 경계 상자 회귀 손실(KL Loss)을 제안한다.
- NMS 중 분산 인식 방법(var voting)을 통해 후처리 성능을 향상시키되 계산 비용은 크게 증가시키지 않는다.
- 다양한 검출기(VGG-16 Faster R-CNN, ResNet-50-FPN Mask R-CNN)에서 MS-COCO 및 PASCAL VOC 2007에 걸친 개선을 시연한다.
- 학습된 불확실성이 해석 가능하고 로컬라이제이션 신뢰가 필요한 다운스트림 작업에 유용하다는 점을 보여준다.
제안 방법
- 각 경계 상자 좌표를 평균 x_e와 분산 σ^2를 가진 독립적인 가우시안으로 모델링한다.
- 정답은 Dirac 델타로 모델링된다(σ -> 0).
- 회귀 손실은 P_D와 P_Θ 사이의 KL 발산으로 정의되며, L_reg ∝ (x_g - x_e)^2/(2σ^2) + (1/2) log(σ^2)로 도출된다.
- σ를 α = log(σ^2)로 파라미터화하여 학습을 안정화하고, L_reg ∝ e^{-α}(x_g - x_e)^2/2 + α/2를 사용한다.
- |x_g - x_e| > 1인 경우 큰 오차에 대해 강건한 부분 손실(스무스 L1과 유사)을 채택한다.
- 로컬라이제이션 불확실성을 포착하기 위해 좌표별 σ를 예측한다.
- NMS 중 var voting을 도입하여 이웃 상자들의 IoU와 분산에 따라 가중치를 두고 최종 상자 위치를 정제한다.
- 학습된 로컬라이제이션 신뢰도를 사용해 좌표를 보정하는 NMS의 알고리즘적 변형을 제공한다.
실험 결과
연구 질문
- RQ1확률적 경계 상자 회귀 손실이 주석의 모호성을 고려해 로컬라이제이션을 개선할 수 있는가?
- RQ2좌표별 로컬라이제이션 불확실성 학습이 분산 인식 투표를 통해 후처리(NMS/soft-NMS)에서 검출을 개선하는가?
- RQ3KL Loss가 기존 검출 헤드 및 후처리 기법과 데이터셋-백본 전반에 걸쳐 어떤 상호작용을 보이나?
- RQ4KL Loss와 var voting을 도입할 때 AP 및 로컬라이제이션 지표(AP, AP90 등)에 미치는 실험적 영향은 무엇인가?
- RQ5학습된 불확실성이 해석 가능하고 로컬라이제이션 신뢰가 필요한 다운스트림 작업에 유익한가?
주요 결과
| AP(평균 정밀도) | AP50 | AP75 | AP S(소형) | AP M(중형) | AP L(대형) | AR 1 | AR 10 | AR 100 |
|---|---|---|---|---|---|---|---|---|
| 23.6 | 44.6 | 22.8 | 6.7 | 25.9 | 36.3 | 23.3 | 33.6 | 34.3 |
| 24.8 | 45.6 | 24.6 | 7.6 | 27.2 | 37.6 | 23.4 | 39.2 | 42.2 |
| 26.4 | 47.9 | 26.4 | 7.4 | 29.3 | 41.2 | 25.2 | 36.1 | 36.9 |
| 27.8 | 48.0 | 28.9 | 8.1 | 31.4 | 42.6 | 26.2 | 37.5 | 38.3 |
| 29.1 | 49.1 | 30.4 | 8.7 | 32.7 | 44.3 | 26.2 | 42.5 | 45.5 |
- KL Loss만으로 MS-COCO에서 VGG-16 Faster R-CNN의 AP가 2.8% 향상된다.
- KL Loss를 var voting 및 soft-NMS와 함께 사용하면 MS-COCO에서 가장 좋은 결과를 얻으며 VGG-16 Faster R-CNN의 AP 29.1%를 달성한다.
- ResNet-50-FPN Mask R-CNN에서 KL Loss + var voting + soft-NMS는 AP를 1.8% 향상시키고 AP90을 6.2% 상승시킨다.
- Var voting은 예측된 분산으로 이웃 상자에 가중치를 부여해 위치를 정제하고 높은 IOU 지표(AP75, APM, APL)를 향상시킨다.
- KL Loss는 VGG-16, ResNet-50-FPN, Mask R-CNN 전반에서 AP를 지속적으로 향상시키며 GTX 1080 Ti에서 약 2 ms의 지연 증가만 유발한다.
- PASCAL VOC 2007에서 KL Loss가 mAP를 향상시키고, var voting이 추가 이득을 제공하며 특히 AP90과 같이 더 높은 중첩(metrics)에서 상승을 보인다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.