QUICK REVIEW

[論文レビュー] MPDIoU: A Loss for Efficient and Accurate Bounding Box Regression

Siliang Ma, Yong Xu|arXiv (Cornell University)|Jul 14, 2023

Advanced Neural Network Applications被引用数 217

ひとこと要約

本論文は、最小点距離を組み込むことで収束速度と精度を向上させる新しいIoUベースの損失MPDIoUを導入し、物体検出、シーンテキスト認識、インスタンス分割のベンチマークでその優位性を示す。

ABSTRACT

Bounding box regression (BBR) has been widely used in object detection and instance segmentation, which is an important step in object localization. However, most of the existing loss functions for bounding box regression cannot be optimized when the predicted box has the same aspect ratio as the groundtruth box, but the width and height values are exactly different. In order to tackle the issues mentioned above, we fully explore the geometric features of horizontal rectangle and propose a novel bounding box similarity comparison metric MPDIoU based on minimum point distance, which contains all of the relevant factors considered in the existing loss functions, namely overlapping or non-overlapping area, central points distance, and deviation of width and height, while simplifying the calculation process. On this basis, we propose a bounding box regression loss function based on MPDIoU, called LMPDIoU . Experimental results show that the MPDIoU loss function is applied to state-of-the-art instance segmentation (e.g., YOLACT) and object detection (e.g., YOLOv7) model trained on PASCAL VOC, MS COCO, and IIIT5k outperforms existing loss functions.

研究の動機と目的

伝統的なIoUおよびL-norm損失を超える、より情報量の多い境界ボックス回帰損失の必要性を動機づける。
最小点距離ペナルティを含むIoUベースの類似度指標としてMPDIoUを提案する。
実用的で計算容易なMPDIoUベースの回帰損失を開発し、既存モデルへの統合を示す。
多様な2Dビジョンタスクと標準データセットでのMPDIoUの経験的利得を示す。

提案手法

MPDIoUを、予測ボックスとグラウンドトゥルースボックスの左上角と右下角の座標間の二乗距離に基づくペナルティをIoUから差し引き、画像サイズで正規化したものとして定義する。
軸に平行な長方形間のMPDIoUを計算するアルゴリズムを提供し、境界ボックス回帰のためのMPDIoU損失をL_MPDIoU = 1 - MPDIoUとして導出する。
MPDIoUが、IoUが同じでも角の配置が異なるケースを識別できることを示し、回帰指示を改善する。
YOLOv7とYOLACTの基礎回帰損失をL_MPDIoUに置換し、性能向上を評価する。
角座標からMPDIoU成分を計算するための変換公式と因子（面積、中心、幅、高さ）を確立する。

実験結果

リサーチクエスチョン

RQ1境界ボックスがアスペクト比を共有するが幅/高さが異なる場合、MPDIoUは既存のIoUベースの損失よりも情報量の多い勾配信号を提供できるか？
RQ2最先端検出器へMPDIoUを組み込むと、物体検出、インスタンス分割、シーンテキスト認識のベンチマークで局所化精度と収束が改善されるか？
RQ3PASCAL VOC、MS COCO、IIIT5k、MTHv2などの標準データセットに対して、MPDIoUはGIoU、DIoU、CIoU、EIoUと比較してどうか？
RQ4ボックスが重ならない場合にMPDIoUが頑健か、より厳密で冗長性の少ない予測を促すか？

主な発見

MPDIoUベースの回帰は、VOCおよびCOCOでYOLOv7とYOLACTを横断して、いくつかのIoUベース損失より精度を向上させる。
MPDIoUは、物体検出、文字レベルのシーンテキスト認識、インスタンス分割で、より速い収束と高い性能を示す。
VOC、COCO、IIIT5k、MTHv2での実験は、MPDIoUがGIoU、DIoU、CIoU、EIoU損失と比較して有利な結果を示す。
IoUが0のときでも、角距離ペナルティのためMPDIoU損失は有界で、情報量のある勾配を提供する。
定理3.1は、アスペクト比が一致する場合、グラウンドトゥルース内にある予測ボックスが外にある場合より低いL_MPDIoUを与え、より緊密な局在化を支持すると主張する。
実験的な結果は、評価されたタスク全体でAP75および関連指標の顕著な改善を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。