Skip to main content
QUICK REVIEW

[논문 리뷰] Wise-IoU: Bounding Box Regression Loss with Dynamic Focusing Mechanism

Zanjia Tong, Yuhang Chen|arXiv (Cornell University)|2023. 01. 24.
Advanced Neural Network Applications인용 수 421
한 줄 요약

Wise-IoU는 경계 상자 회귀 손실에 대한 동적 비단조 포커싱 메커니즘을 도입하여 보통 품질의 앵커에 대한 그래디언트 업데이트에 초점을 맞추고 저품질 예제로 인한 해로운 업데이트를 줄임으로써 로컬라이제이션을 개선합니다; YOLOv7에 적용하여 MS-COCO에서 AP75를 53.03%에서 54.50%로 올렸습니다.

ABSTRACT

The loss function for bounding box regression (BBR) is essential to object detection. Its good definition will bring significant performance improvement to the model. Most existing works assume that the examples in the training data are high-quality and focus on strengthening the fitting ability of BBR loss. If we blindly strengthen BBR on low-quality examples, it will jeopardize localization performance. Focal-EIoU v1 was proposed to solve this problem, but due to its static focusing mechanism (FM), the potential of non-monotonic FM was not fully exploited. Based on this idea, we propose an IoU-based loss with a dynamic non-monotonic FM named Wise-IoU (WIoU). The dynamic non-monotonic FM uses the outlier degree instead of IoU to evaluate the quality of anchor boxes and provides a wise gradient gain allocation strategy. This strategy reduces the competitiveness of high-quality anchor boxes while also reducing the harmful gradient generated by low-quality examples. This allows WIoU to focus on ordinary-quality anchor boxes and improve the detector's overall performance. When WIoU is applied to the state-of-the-art real-time detector YOLOv7, the AP-75 on the MS-COCO dataset is improved from 53.03% to 54.50%. Code is available at https://github.com/Instinct323/wiou.

연구 동기 및 목표

  • 저품질 학습 예제가 주는 부정적 영향을 줄여 더 나은 경계 상자 회귀를 촉진한다.
  • 앵커 박스 이상도에 의해 안내되는 동적 비단조 포커싱 메커니즘(FM)을 제안한다.
  • Wise-IoU 손실을 IoU 기반 회귀 프레임워크와 통합한다.
  • MS-COCO를 사용한 실시간 탐지기(YOLOv7)에서 개선점을 평가한다.
  • FM의 역할과 WIoU에서의 동적 정규화에 대한 원인 분석을 위한 어블레이션을 제공한다.

제안 방법

  • IoU 기반 손실과 동적 비단조 FM을 결합하여 Wise-IoU(WIoU)를 제안한다.
  • 일반 품질 상자에 대해 L_IoU를 증폭시키는 attention 기반 페널티 R_WIoU를 포함한 L_WIoUv1을 도입한다.
  • In2 결과에서 L_WIoUv1 = R_WIoU * L_IoU이며 R_WIoU = exp(((x-x_gt)^2+(y-y_gt)^2)/(W_g^2+H_g^2)*). detaching W_g, H_g로 그래디언트 교착을 피한다.
  • L_WIoUv2는 포커싱 계수 gamma*를 L_WIoUv1에 적용하고 L_IoU의 지수적 실행 평균으로 정규화하여 단조로운 변형을 개발한다.
  • β = L_IoU^* / L_IoU_bar이고 그래디언트 이득 r = β/(δ*α^(β-δ))를 사용하여 최적의 β(C)에서 그래디언트 이득을 최대화하는 동적 비단조 변형 L_WIoUv3를 개발한다.
  • WIoU v3를 MS-COCO 실험의 YOLOv7-w6에 적용하고 SIoU, EIoU, Focal-EIoU 베이스라인과 비교한다.

실험 결과

연구 질문

  • RQ1동적 비단조 포커싱이 정적 비단조 FM보다 경계 상자 회귀를 더 향상시킬 수 있는가?
  • RQ2앵커 박스 이상도에 따른 그래디언트 이득 가중이 보통 품질, 고품질, 저품질 예제의 학습에 어떤 영향을 미치는가?
  • RQ3WIoU 변형(v1, v2, v3)이 COCO 지표를 대상으로 한 실시간 탐지기 YOLOv7의 성능에 어떤 영향을 미치는가?
  • RQ4동적 정규화된 포커싱 계수가 수렴 속도를 유지하면서 일반화 능력을 향상시키는가?

주요 결과

MethodAP75 (val)AP50 (val)AP (val)Notes
CIoU53.0363.1445.20Base CIoU result
CIoU v2 (gamma=0.5)53.4763.4145.12+0.44 AP75 vs CIoU
CIoU v3 (alpha=1.4, delta=5)53.2563.3444.76+0.22 AP75
CIoU v3 (alpha=1.6, delta=4)53.6863.3445.10+0.65 AP75
CIoU v3 (alpha=1.9, delta=3)53.0462.9244.91--
SIoU53.1563.4645.21Base SIoU result
SIoU v2 (gamma=0.5)53.0763.1244.66+0.0 AP75 vs SIoU? (noted)
SIoU v3 (alpha=1.4, delta=5)53.2764.1345.15+0.12 AP75 및 +0.67 AP50
SIoU v3 (alpha=1.6, delta=4)53.2163.4844.89--
SIoU v3 (alpha=1.9, delta=3)53.4263.2845.03+0.27 AP75
EIoU53.5563.1745.39Baseline EIoU
Focal-EIoU52.8863.3744.75Focal-EIoU baseline
WIoU v152.8263.1544.87Baseline WIoU v1
WIoU v2 (gamma=0.5)53.6764.1545.56+0.85 AP75,+1.00 AP50,+0.68 AP
WIoU v3 (alpha=1.4, delta=5)53.7564.0545.15+1.07 AP75,+0.90 AP50
WIoU v3 (alpha=1.6, delta=4)53.9164.1645.44+1.09 AP75,+1.01 AP50,+0.57 AP
WIoU v3 (alpha=1.9, delta=3)54.5064.2045.68+1.68 AP75,+1.05 AP50,+0.81 AP
  • WIoU v3는 동적 비단조 FM으로 테스트된 손실 중 전체적으로 가장 우수한 성능을 보인다.
  • 동적 FM의 적용은 저품질 예제를 보호하고 보통 품질의 앵커에 집중하도록 도와로 로컬라이제이션을 향상시킨다.
  • WIoU v3는 여러 구성에서 가장 큰 AP 향상을 얻으며, 예를 들어 CIoU 베이스라인 대비 AP75가 최대 1.68포인트 증가하는 설정이 있다.
  • MS-COCO에서 alpha=1.9 및 delta=3의 WIoU v3은 AP75 54.50을 달성하여 CIoU 및 SIoU 베이스라인보다 높다.
  • WIoU v2 및 WIoU v3은 단조로운 FM이 손실에 따라 해를 주거나 이익을 줄 수 있는 반면, 동적 비단조 FM은 WIoU v3에 지속적으로 이익을 준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.