QUICK REVIEW

[論文レビュー] Bounding Box Regression with Uncertainty for Accurate Object Detection

Yihui He, Chenchen Zhu|arXiv (Cornell University)|Sep 23, 2018

Advanced Neural Network Applications参考文献 63被引用数 41

ひとこと要約

本論文はKL Lossを導入し、境界ボックスの位置推定と座標ごとの不確実性を同時に学習する。さらにNMS時の分散投票スキームを提案し、計算負荷をほぼ変えずに位置推定を改善する。

ABSTRACT

Large-scale object detection datasets (e.g., MS-COCO) try to define the ground truth bounding boxes as clear as possible. However, we observe that ambiguities are still introduced when labeling the bounding boxes. In this paper, we propose a novel bounding box regression loss for learning bounding box transformation and localization variance together. Our loss greatly improves the localization accuracies of various architectures with nearly no additional computation. The learned localization variance allows us to merge neighboring bounding boxes during non-maximum suppression (NMS), which further improves the localization performance. On MS-COCO, we boost the Average Precision (AP) of VGG-16 Faster R-CNN from 23.6% to 29.1%. More importantly, for ResNet-50-FPN Mask R-CNN, our method improves the AP and AP90 by 1.8% and 6.2% respectively, which significantly outperforms previous state-of-the-art bounding box refinement methods. Our code and models are available at: github.com/yihui-he/KL-Loss

研究の動機と目的

MS-COCOのような大規模データセットにおいて、真の境界ボックスが本質的に曖昧であることを動機づける。
位置推定と不確実性を同時に学習する確率的境界ボックス回帰損失（KL Loss）を提案する。
NMS中の分散認識手法（var voting）を通じて後処理を改善する。
MS-COCOおよびPASCAL VOC 2007上でVGG-16 Faster R-CNN、ResNet-50-FPN Mask R-CNNなど複数の検出器で改善を示す。
学習された不確実性が解釈可能で、局在信頼度を必要とする下流タスクに有用であることを示す。

提案手法

各境界ボックス座標を独立したガウス分布として、平均を x_e、分散を σ^2 としてモデル化する。
真値はディラックデルタ（σ -> 0）としてモデル化する。
回帰損失を P_D と P_Θ のKL発散として定義し、L_reg ∝ (x_g - x_e)^2/(2σ^2) + (1/2) log(σ^2) を導出する。
安定した学習のため σ を α = log(σ^2) によりパラメータ化し、L_reg ∝ e^{-α}(x_g - x_e)^2/2 + α/2、とする。
|x_g - x_e| が 1 を超える大きな誤差に対して頑健な部分損失を採用し、スムーズL1に類似。
局在不確実性を捉えるため座標ごとに σ を予測する。
NMS時に var voting を導入し、近隣ボックスを IoU およびその分散で重み付けして最終ボックス位置を精練する。
学習済みの局所化信頼度を用いて座標を調整するNMSのアルゴリズム的バリアントを提供する。

実験結果

リサーチクエスチョン

RQ1注釈の曖昧さを考慮して確率的な境界ボックス回帰損失は局在化を改善できるか？
RQ2分割座標ごとの局在不確実性を学習することは、分散認識投票を通じた後処理（NMS/soft-NMS）で検出を精練するのに役立つか？
RQ3KL Lossは既存の検出ヘッドや後処理技術とどのように相互作用するか（データセット・バックボーン間で）？
RQ4KL Lossとvar votingを組み込んだ場合、APや局在指標（AP, AP90 など）に実証的な影響はあるか？
RQ5学習された不確実性は解釈可能で、局在信頼度を要求する下流タスクに有用か？

主な発見

AP	AP50	AP75	AP S	AP M	AP L	AR 1	AR 10	AR 100
23.6	44.6	22.8	6.7	25.9	36.3	23.3	33.6	34.3
24.8	45.6	24.6	7.6	27.2	37.6	23.4	39.2	42.2
26.4	47.9	26.4	7.4	29.3	41.2	25.2	36.1	36.9
27.8	48.0	28.9	8.1	31.4	42.6	26.2	37.5	38.3
29.1	49.1	30.4	8.7	32.7	44.3	26.2	42.5	45.5

KL Loss単独でMS-COCOのVGG-16 Faster R-CNNのAPを2.8%向上。
KL Lossとvar votingおよびsoft-NMSを組み合わせると最も良いMS-COCO結果を得られ、VGG-16 Faster R-CNNでAP 29.1%を達成。
ResNet-50-FPN Mask R-CNNではKL Loss + var voting + soft-NMSによりAPが1.8%、AP90が6.2%向上。
Var votingは予測分散に基づく近傍ボックスの重み付けにより局在を精練し、高IOU指標（AP75, APM, APL）を改善。
KL LossはVGG-16、ResNet-50-FPN、Mask R-CNNのAPを一貫して向上させ、GTX 1080 Tiでのレイテンシ増加は約2 ms程度に留まる。
PASCAL VOC 2007ではKL LossがmAPを改善し、var votingは特にAP90のような高重なる指標でさらなる利得を提供。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。