QUICK REVIEW

[논문 리뷰] From Black-box to White-box: Examining Confidence Calibration under different Conditions

Franziska Schwaiger, Maximilian Henne|arXiv (Cornell University)|2021. 01. 08.

Adversarial Robustness in Machine Learning참고 문헌 20인용 수 2

한 줄 요약

이 논문은 비최대 억제(NMS)가 객체 검출 모델의 신뢰도 校정에 미치는 영향을 분석하기 위해, NMS 이전의 원본 네트워크 출력을 사용하는 화이트박스 校정(white-box calibration)과 NMS 이후의 출력을 사용하는 블랙박스 校정(black-box calibration)을 비교한다. NMS는 校정 성능을 악화시키며, 잘 校정된 모델인 Faster R-CNN를 과신도로 전환시킨다. 또한 다양한 아키텍처와 후처리 단계에서 校정 성능의 상당한 차이가 있음을 보여준다.

ABSTRACT

Confidence calibration is a major concern when applying artificial neural networks in safety-critical applications. Since most research in this area has focused on classification in the past, confidence calibration in the scope of object detection has gained more attention only recently. Based on previous work, we study the miscalibration of object detection models with respect to image location and box scale. Our main contribution is to additionally consider the impact of box selection methods like non-maximum suppression to calibration. We investigate the default intrinsic calibration of object detection models and how it is affected by these post-processing techniques. For this purpose, we distinguish between black-box calibration with non-maximum suppression and white-box calibration with raw network outputs. Our experiments reveal that post-processing highly affects confidence calibration. We show that non-maximum suppression has the potential to degrade initially well-calibrated predictions, leading to overconfident and thus miscalibrated models.

연구 동기 및 목표

비최대 억제(NMS)가 객체 검출 모델의 신뢰도 校정에 미치는 영향을 분석하기 위해.
COCO 데이터셋에서 NMS 이전의 원본 모델 출력을 사용하는 화이트박스 校정과 NMS 이후의 출력을 사용하는 블랙박스 校정을 비교하기 위해.
모델 아키텍처(ResNet 기반 RetinaNet 대비 Faster R-CNN)가 NMS 이전 및 이후에 어떻게 校정 행동에 영향을 미치는지 평가하기 위해.
보정 맵핑에 공간적 및 척도 정보(박스 중심점, 높이, 너비)를 통합함으로써 校정 성능을 향상시킬 수 있는지 조사하기 위해.
히스토그램 기반 校정이 다양한 검출 출력 서브셋에 대해 얼마나 효과적인지 평가하기 위해.

제안 방법

연구는 Faster R-CNN와 RetinaNet을 기반 객체 검출 모델로 사용하며, 각각 교차 엔트로피 손실과 포칼 손실로 훈련한다.
화이트박스 校정은 NMS 이전의 원본 네트워크 출력에 적용되고, 블랙박스 校정은 다양한 IoU 임계치(0.5, 0.6, 0.75, 0.9)로 NMS 이후에 적용된다.
히스토그램 기반(HB) 校정은 신뢰도 점수에 적용되며, 단순 신뢰도(ˆp)만 포함된 출력, 중심점(cx, cy)을 추가한 출력, 척도(h, w)를 추가한 출력, 전체 특징 집합을 포함한 서브셋을 사용한다.
예상 校정 오차(ECE)는 분할 기반 기준을 사용하여 다양한 검출 조건에서의 校정 오차를 측정하기 위해 변형 적용된다.
실험은 COCO 데이터셋에서 수행되며, 다양한 IoU 임계치에서의 校정 성능 평가를 위해 D-ECE(Disagreement ECE)가 사용된다.
NMS가 신뢰도 신뢰성에 미치는 영향을 분리하기 위해, 다양한 후처리 단계와 모델 아키텍처 간의 校정 성능을 비교한다.

실험 결과

연구 질문

RQ1비최대 억제(NMS)는 객체 검출 모델의 신뢰도 校정에 어떻게 영향을 미치는가?
RQ2화이트박스(전-NMS)와 블랙박스(후-NMS) 상황 간에 객체 검출기의 내재적 校정 성능에 차이가 있는가?
RQ3RetinaNet과 Faster R-CNN와 같은 모델 아키텍처는 NMS 이전 및 이후에 어떻게 다른 校정 행동을 보이는가?
RQ4공간적 및 척도 정보(cx, cy, h, w)를 통합함으로써 校정 성능 향상은 어느 정도 이루어지는가?
RQ5히스토그램 기반 校정은 화이트박스 및 블랙박스 설정 모두에서 잘못된 校정을 효과적으로 수정할 수 있는가?

주요 결과

NMS는 신뢰도 校정을 심각하게 악화시키며, 잘 校정된 Faster R-CNN 예측을 과신도로 전환시킨다. IoU@0.75 기준으로 D-ECE는 화이트박스에서 6.914%에서 블랙박스에서 13.067%로 증가한다.
RetinaNet의 경우, 화이트박스 모델은 과소신뢰도를 보이며(기준 D-ECE 7.781% at IoU@0.5), 하지만 NMS 이후에 校정 성능이 향상되어 히스토그램 기반 校정을 거친 후 D-ECE가 1.523%로 감소한다.
RetinaNet에서 NMS@0.9를 적용한 블랙박스 모델은 IoU@0.75 기준으로 가장 높은 D-ECE(34.634%)를 기록하여 억제 후 심각한 校정 오차가 있음을 시사한다.
단순한 신뢰도 또는 중심점 정보를 포함한 경우 화이트박스 校정이 블랙박스 校정보다 우수하지만, 척도 특징을 포함할 경우 블랙박스 모델이 略적으로 더 우수한 성능을 보인다.
박스 중심점 및 척도 정보(cx, cy, h, w)의 통합은 校정 성능을 향상시키며, 특히 화이트박스 설정에서 두드러진다. RetinaNet의 경우 IoU@0.75 기준으로 D-ECE가 최대 5.704% 감소한다.
결과는 NMS가 모델의 校정 프로파일을 변화시킨다는 것을 보여주며, 화이트박스 모델에서 校정된 출력이 NMS 이후에 열악해지는 것을 확인하여, 보다 나은 억제 전략의 필요성을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.