Skip to main content
QUICK REVIEW

[論文レビュー] Wise-IoU: Bounding Box Regression Loss with Dynamic Focusing Mechanism

Zanjia Tong, Yuhang Chen|arXiv (Cornell University)|Jan 24, 2023
Advanced Neural Network Applications被引用数 421
ひとこと要約

Wise-IoU は境界ボックス回帰損失のダイナミックな非単調フォーカシング機構を導入し、標準品質のアンカーへの勾配更新に焦点を当てることで局所化を改善し、低品質サンプルからの有害な更新を減らす。これを YOLOv7 に適用すると MS-COCO で AP75 が 53.03% から 54.50% に上昇する。

ABSTRACT

The loss function for bounding box regression (BBR) is essential to object detection. Its good definition will bring significant performance improvement to the model. Most existing works assume that the examples in the training data are high-quality and focus on strengthening the fitting ability of BBR loss. If we blindly strengthen BBR on low-quality examples, it will jeopardize localization performance. Focal-EIoU v1 was proposed to solve this problem, but due to its static focusing mechanism (FM), the potential of non-monotonic FM was not fully exploited. Based on this idea, we propose an IoU-based loss with a dynamic non-monotonic FM named Wise-IoU (WIoU). The dynamic non-monotonic FM uses the outlier degree instead of IoU to evaluate the quality of anchor boxes and provides a wise gradient gain allocation strategy. This strategy reduces the competitiveness of high-quality anchor boxes while also reducing the harmful gradient generated by low-quality examples. This allows WIoU to focus on ordinary-quality anchor boxes and improve the detector's overall performance. When WIoU is applied to the state-of-the-art real-time detector YOLOv7, the AP-75 on the MS-COCO dataset is improved from 53.03% to 54.50%. Code is available at https://github.com/Instinct323/wiou.

研究の動機と目的

  • より低品質のトレーニング例が negative に与える影響を減らすことで、境界ボックス回帰の改善を動機づける。
  • アンカー ボックスのアウトライア度に導かれたダイナミックな非単調フォーカシング機構 (FM) を提案する。
  • Wise-IoU 損失を IoU ベースの回帰フレームワークと統合する。
  • MS-COCO を用いたリアルタイム検出器 YOLOv7 での改善を評価する。
  • FM とダイナミック正規化の役割を理解するためのアブレーションを提供する。

提案手法

  • IoU ベースの損失とダイナミックな非単調 FM を組み合わせることで Wise-IoU (WIoU) を提案する。
  • L_WIoUv1 を導入し、ordinary-quality なボックスの L_IoU を増幅する attention-based penalty R_WIoU を導入する。
  • In2 結果として、L_WIoUv1 = R_WIoU * L_IoU で R_WIoU = exp(((x-x_gt)^2+(y-y_gt)^2)/(W_g^2+H_g^2)*) を用い、W_g, H_g の勾配デッドロックを回避するために切り離す。
  • L_WIoUv2 をモノトニックな変法として gamma* のフォーカシング係数を適用し、L_IoU の指数ランニング平均で正規化して導入する。
  • beta = L_IoU^* / L_IoU_bar によるアウトライア度と、勾配ゲイン r = beta/(delta*alpha^(beta-delta)) を用いて最適な beta (C) で勾配ゲインを最大化するダイナミック非単調版 L_WIoUv3 を開発する。
  • WIoU v3 を MS-COCO の実験で YOLOv7-w6 に適用し、SIoU、EIoU、Focal-EIoU のベースラインと比較する。

実験結果

リサーチクエスチョン

  • RQ1ダイナミックな非単調フォーカシングは静的な非単調FM より境界ボックス回帰を改善できるか?
  • RQ2アンカー ボックスのアウトライア度で勾配ゲインを重み付けすると ordinary-, 高品質-, 低品質の例の学習にどのような影響を与えるか?
  • RQ3WIoU の v1, v2, v3 は COCO 指標を横断するリアルタイム検出器である YOLOv7 に対してどの程度の性能影響を与えるか?
  • RQ4フォーカシング係数のダイナミック正規化は収束速度を保ちながら一般化を改善するか?

主な発見

手法AP75 (検証)AP50 (検証)AP (検証)備考
CIoU53.0363.1445.20Base CIoU result
CIoU v2 (gamma=0.5)53.4763.4145.12+0.44 AP75 vs CIoU
CIoU v3 (alpha=1.4, delta=5)53.2563.3444.76+0.22 AP75
CIoU v3 (alpha=1.6, delta=4)53.6863.3445.10+0.65 AP75
CIoU v3 (alpha=1.9, delta=3)53.0462.9244.91--
SIoU53.1563.4645.21Base SIoU result
SIoU v2 (gamma=0.5)53.0763.1244.66+0.0 AP75 vs SIoU? (noted)
SIoU v3 (alpha=1.4, delta=5)53.2764.1345.15+0.12 AP75 and +0.67 AP50
SIoU v3 (alpha=1.6, delta=4)53.2163.4844.89--
SIoU v3 (alpha=1.9, delta=3)53.4263.2845.03+0.27 AP75
EIoU53.5563.1745.39Baseline EIoU
Focal-EIoU52.8863.3744.75Focal-EIoU baseline
WIoU v152.8263.1544.87Baseline WIoU v1
WIoU v2 (gamma=0.5)53.6764.1545.56+0.85 AP75,+1.00 AP50,+0.68 AP
WIoU v3 (alpha=1.4, delta=5)53.7564.0545.15+1.07 AP75,+0.90 AP50
WIoU v3 (alpha=1.6, delta=4)53.9164.1645.44+1.09 AP75,+1.01 AP50,+0.57 AP
WIoU v3 (alpha=1.9, delta=3)54.5064.2045.68+1.68 AP75,+1.05 AP50,+0.81 AP
  • WIoU v3 は ダイナミックな非単調 FM を持つ場合、試験された損失の中で最も良い全体性能を達成する。
  • ダイナミック FM の適用は低品質の例を守りつつ ordinary-quality アンカーに焦点を当てるのに役立ち、局所化を改善する。
  • WIoU v3 は複数の構成で最大の AP 増分を生み出し、例えば CIoU ベースラインに対して AP75 が最大で 1.68 ポイント改善される設定がある。
  • MS-COCO で alpha=1.9, delta=3 のとき WIoU v3 は AP75 が 54.50、CIoU および SIoU のベースラインより高い。
  • WIoU v2 と WIoU v3 はモノトニックFM が損失次第で有利にも不利にもなり得る一方、ダイナミックな非単調FM は一貫して WIoU v3 に利益をもたらす。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。