QUICK REVIEW

[論文レビュー] From Black-box to White-box: Examining Confidence Calibration under different Conditions

Franziska Schwaiger, Maximilian Henne|arXiv (Cornell University)|Jan 8, 2021

Adversarial Robustness in Machine Learning参考文献 20被引用数 2

ひとこと要約

この論文は、非最大値抑制（NMS）が物体検出モデルの信頼度キャリブレーションに与える影響を、NMS前の生ネットワーク出力（ホワイトボックスキャリブレーション）とNMS後の出力（ブラックボックスキャリブレーション）を比較することで調査している。NMSがキャリブレーションを劣化させ、Faster R-CNNのような良好にキャリブレートされたモデルを過信度過剰なものに変えてしまうことが判明し、モデルアーキテクチャーや後処理段階によってキャリブレーション性能に顕著な差が生じることが示された。

ABSTRACT

Confidence calibration is a major concern when applying artificial neural networks in safety-critical applications. Since most research in this area has focused on classification in the past, confidence calibration in the scope of object detection has gained more attention only recently. Based on previous work, we study the miscalibration of object detection models with respect to image location and box scale. Our main contribution is to additionally consider the impact of box selection methods like non-maximum suppression to calibration. We investigate the default intrinsic calibration of object detection models and how it is affected by these post-processing techniques. For this purpose, we distinguish between black-box calibration with non-maximum suppression and white-box calibration with raw network outputs. Our experiments reveal that post-processing highly affects confidence calibration. We show that non-maximum suppression has the potential to degrade initially well-calibrated predictions, leading to overconfident and thus miscalibrated models.

研究の動機と目的

非最大値抑制（NMS）が物体検出モデルの信頼度キャリブレーションに与える影響を分析すること。
COCOデータセット上で、NMS前の生モデル出力（ホワイトボックスキャリブレーション）とNMS後の出力（ブラックボックスキャリブレーション）を比較すること。
RetinaNetとFaster R-CNNというモデルアーキテクチャの違いが、NMS前後におけるキャリブレーション行動にどのように影響するかを評価すること。
キャリブレーションマッピングに空間的およびスケール情報（ボックスの中心座標、高さ、幅）を組み込むことで、キャリブレーション性能が向上するかどうかを調査すること。
ヒストグラムベースのキャリブレーションが、検出出力の異なるサブセットに対して効果的であるかを評価すること。

提案手法

研究では、Faster R-CNNとRetinaNetをベースとする物体検出モデルを用い、それぞれ交差エントロピー損失およびフォーカル損失で訓練した。
ホワイトボックスキャリブレーションはNMS前の生ネットワーク出力に対して実施され、ブラックボックスキャリブレーションは、異なるIoU閾値（0.5、0.6、0.75、0.9）を用いたNMS後に実施された。
ヒストグラムベース（HB）キャリブレーションは、信頼度スコアに適用され、信頼度（ˆp）のみ、信頼度にボックス中心座標（cx、cy）を加えたもの、信頼度にスケール（h、w）を加えたもの、および完全な特徴セットを含むサブセットが使用された。
バイニング手法を用いて期待キャリブレーション誤差（ECE）を変更し、さまざまな検出条件におけるキャリブレーション誤差を測定する指標として用いた。
実験はCOCOデータセット上で実施され、複数のIoU閾値におけるキャリブレーション性能を評価するためにD-ECE（不一致ECE）が使用された。
NMSが信頼度の信頼性に与える影響を分離するために、異なる後処理段階およびモデルアーキテクチャ間でのキャリブレーション性能を比較した。

実験結果

リサーチクエスチョン

RQ1非最大値抑制（NMS）は、物体検出モデルの信頼度キャリブレーションにどのように影響するか？
RQ2ホワイトボックス（NMS前）とブラックボックス（NMS後）の状況において、物体検出器の内在的キャリブレーションに差があるか？
RQ3RetinaNetやFaster R-CNNといったモデルアーキテクチャは、NMS前後でどのようにキャリブレーション行動を示すか？
RQ4ボックス中心座標（cx、cy）およびスケール（h、w）といった空間的・スケール情報の統合が、キャリブレーション性能をどの程度向上させるか？
RQ5ヒストグラムベースのキャリブレーションは、ホワイトボックスおよびブラックボックス設定の両方で、キャリブレーション誤差を効果的に是正できるか？

主な発見

NMSは信頼度キャリブレーションを顕著に劣化させ、良好にキャリブレートされたFaster R-CNNの予測を過信度過剰なものに変え、IoU@0.75におけるD-ECEがホワイトボックスの6.914％からブラックボックスの13.067％に上昇した。
RetinaNetでは、ホワイトボックスモデルは過信度不足（IoU@0.5におけるベースラインD-ECE 7.781％）であるが、NMS後にキャリブレーションが改善され、ヒストグラムベースキャリブレーションを施した後にはD-ECEが1.523％に低下した。
RetinaNetでは、NMS@0.9を適用したブラックボックスモデルが、IoU@0.75において最高のD-ECE（34.634％）を示し、抑制後に深刻なキャリブレーション誤差が生じたことが示された。
信頼度のみ、または信頼度にボックス中心座標を加えた場合、ホワイトボックスキャリブレーションがブラックボックスキャリブレーションを上回ったが、スケール特徴を含めた場合にはブラックボックスモデルがわずかに優れた性能を示した。
ボックス中心座標（cx、cy）およびスケール情報（h、w）の統合によりキャリブレーションが向上し、特にホワイトボックス設定で顕著な改善が見られた。RetinaNetでは、IoU@0.75におけるD-ECEが最大5.704％低下した。
結果から、NMSがモデルのキャリブレーションプロファイルを変化させ、ホワイトボックスでキャリブレートされた出力がNMS後に劣化することが示された。これは、代替の抑制戦略の必要性を示唆している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。