Skip to main content
QUICK REVIEW

[논문 리뷰] Learning High-Precision Bounding Box for Rotated Object Detection via Kullback-Leibler Divergence

Xue Yang, Xiaojiang Yang|arXiv (Cornell University)|2021. 06. 03.
Advanced Neural Network Applications참고 문헌 61인용 수 232
한 줄 요약

이 논문은 바운딩 박스의 가우시안 표현 간의 Kullback-Leibler Divergence를 기반으로 회전 객체 탐지 회귀 손실을 제안하여 자체 모듈화되고 스케일 불변의 고정밀 탐지를 가능하게 하며 손실을 수평 케이스로 축소(degenerate)한다.

ABSTRACT

Existing rotated object detectors are mostly inherited from the horizontal detection paradigm, as the latter has evolved into a well-developed area. However, these detectors are difficult to perform prominently in high-precision detection due to the limitation of current regression loss design, especially for objects with large aspect ratios. Taking the perspective that horizontal detection is a special case for rotated object detection, in this paper, we are motivated to change the design of rotation regression loss from induction paradigm to deduction methodology, in terms of the relation between rotation and horizontal detection. We show that one essential challenge is how to modulate the coupled parameters in the rotation regression loss, as such the estimated parameters can influence to each other during the dynamic joint optimization, in an adaptive and synergetic way. Specifically, we first convert the rotated bounding box into a 2-D Gaussian distribution, and then calculate the Kullback-Leibler Divergence (KLD) between the Gaussian distributions as the regression loss. By analyzing the gradient of each parameter, we show that KLD (and its derivatives) can dynamically adjust the parameter gradients according to the characteristics of the object. It will adjust the importance (gradient weight) of the angle parameter according to the aspect ratio. This mechanism can be vital for high-precision detection as a slight angle error would cause a serious accuracy drop for large aspect ratios objects. More importantly, we have proved that KLD is scale invariant. We further show that the KLD loss can be degenerated into the popular $l_{n}$-norm loss for horizontal detection. Experimental results on seven datasets using different detectors show its consistent superiority, and codes are available at https://github.com/yangxue0827/RotationDetection and https://github.com/open-mmlab/mmrotate.

연구 동기 및 목표

  • 회전 회귀를 수평 탐지기에 의존하는 유도 기반에서 일반적인 수 deductive, 일반적인 회전 회귀 프레임워크로 전환하자는 동기를 제시한다.
  • 회전된 박스를 2차원 가우시안으로 간주하고 KLD로 거리를 측정하는 회귀 손실을 제안한다.
  • KLD가 객체 기하학과 스케일에 적응하는 동적이고 파라미터 결합된 그래디언트 동작을 제공함을 보인다.
  • KLD가 스케일 불변이며 theta = 0일 때 일반적인 수평 회귀 손실로 축소(degenerate)됨을 보인다.
  • 여러 데이터셋과 검출기에 대해 이 접근법을 검증하여 회전 탐지에서 최신(최고) 성능을 달성한다.

제안 방법

  • 각 회전 바운딩 박스 B(x, y, w, h, theta)를 2차원 가우시안 N(mu, Sigma)로 변환한다.
  • 예상 가우시안과 ground-truth 가우시안 간의 Kullback-Leibler Divergence로 회귀 손실을 계산하고, 파라미터 그래디언트를 분석하여 자기 모듈화를 보인다.
  • 아핀-불변(affine-invariant) 형식을 제안하고 KLD의 비대칭 변형을 보이며 (x, y, w, h, theta)에 대한 그래디언트를 도출한다.
  • 거리 D를 비선형 함수 f(D)와 스케일 매개변수 tau로 정규화하여 최종 L_reg 손실(Eq. 18)을 얻는다.
  • L_reg와 focal 분류 손실을 결합한 다중 작업 손실을 제공하여 엔드투엔드 학습을 가능하게 한다.
  • 수평 케이스가 제안된 손실의 특수한 축소임을 보여준다.

실험 결과

연구 질문

  • RQ1회전 물체 탐상을 위한 회귀 손실을 회전 전체를 일반적인 경우로 다루고 수평 탐지를 특수한 경우로 보는 연역적 관점에서 설계할 수 있는가?
  • RQ2회전 박스를 2차원 가우시안으로 모델링하고 KLD를 손실로 사용하는 것이 자기 모듈화되고 스케일 불변인 그래디언트를 가져와 고정밀 탐지를 향상시키는가?
  • RQ3다양한 데이터셋과 검출기에서 KLD 기반 회귀를 Gaussian Wasserstein Distance 및 전통적인 L_n 손실과 어떻게 비교되는가?
  • RQ4theta가 0에 접근할 때 KLD 기반 손실이 표준 수평 탐지 손실로 축소될 수 있는가?
  • RQ5제안된 방법이 어떤 데이터셋과 상황에서 고정밀 탐지를 위한 실증적 이득을 달성하는가?

주요 결과

  • KLD-based regression provides self-modulated gradients that adjust importance of corners, center, and angle based on object aspect ratio and scale.
  • KLD is scale invariant, and its regression loss can degenerate to L2-like horizontal losses when theta = 0.
  • Nonlinear normalization (e.g., log(D+1) with tau = 1) yields optimal performance in ablations on HRSC2016.
  • Across seven datasets, KLD-based regression shows consistent superiority over Smooth L1 and Gaussian Wasserstein Distance in high-precision detection.
  • On HRSC2016, KLD with RetinaNet achieves up to 23.97% AP75 improvement over Smooth L1 in high-precision metrics, and similar gains are reported on MSRA-TD500 and ICDAR2015 with stronger detectors.
  • Ablation studies indicate the asymmetry of KLD does not significantly affect performance.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.