QUICK REVIEW

[논문 리뷰] Pitfalls of In-Domain Uncertainty Estimation and Ensembling in Deep Learning

Arsenii Ashukha, Alexander Lyzhov|arXiv (Cornell University)|2020. 02. 15.

Adversarial Robustness in Machine Learning참고 문헌 53인용 수 111

한 줄 요약

이 논문은 이미지 분류에서 도메인 내 불확실성 추정을 분석하고, 일반 지표의 함정을 강조하며, 앙상블 방법을 비교하기 위한 깊은 앙상블 등가(DEE) 점수를 도입한다. 이를 통해 깊은 앙상블이 종종 다른 방법보다 우수하다는 점과 테스트 시점 데이터 증강이 성능을 크게 향상시킬 수 있음을 보인다.

ABSTRACT

Uncertainty estimation and ensembling methods go hand-in-hand. Uncertainty estimation is one of the main benchmarks for assessment of ensembling performance. At the same time, deep learning ensembles have provided state-of-the-art results in uncertainty estimation. In this work, we focus on in-domain uncertainty for image classification. We explore the standards for its quantification and point out pitfalls of existing metrics. Avoiding these pitfalls, we perform a broad study of different ensembling techniques. To provide more insight in this study, we introduce the deep ensemble equivalent score (DEE) and show that many sophisticated ensembling techniques are equivalent to an ensemble of only few independently trained networks in terms of test performance.

연구 동기 및 목표

DNN의 도메인 내 불확실성 지표의 신뢰성과 비교 가능성을 평가한다.
표준 이미지 분류 벤치마크에서 다양한 앙상블 기법을 평가한다.
데이터셋 간에 공정하게 앙상블을 비교하기 위해 보정된 로그 가능도와 DEE 점수를 도입한다.
테스트 시점 데이터 증강이 불확실성 추정 및 보정에 미치는 영향을 조사한다.

제안 방법

일반적인 도메인 내 불확실성 지표(로그 가능도 LL, 브라이어 점수, 보정 지표)를 조사하고 그 함정을 밝힌다.
최적의 온도에서 평가하여 보정된 로그 가능도를 공정한 지표로 제안한다.
깊은 앙상블 등가(DEE) 점수를 정의하고 계산하여 앙상블 방법을 깊은 앙상블과 비교한다.
CIFAR-10/100와 ImageNet 전반에 걸쳐 (깊은 앙상블, SSE, FGE, SWAG, VI, K-FAC 래플레이스, 드롭아웃, TTA) 등 다양한 앙상블 기법을 평가한다.
기준선으로서 테스트 시점 데이터 증강(TTA)과 보정 및 온도 스케일링 간의 상호 작용을 분석한다.
아키텍처(VGG16, PreResNet, WideResNet, ResNet50)에서 보정된 로그 가능도와 DEE를 사용하여 성능을 정량화한다.

실험 결과

연구 질문

RQ1모델 간 비교 시 표준 도메인 내 불확실성 지표의 한계는 무엇인가?
RQ2도메인 내 데이터에서 예측 성능과 보정 면에서 다양한 앙상블 기법은 어떻게 비교되는가?
RQ3데이터셋과 아키텍처에 걸쳐 앙상블 방법을 공정하게 순위를 매길 수 있는 통합적이고 해석 가능한 지표(DEE)가 있는가?
RQ4도메인 내 불확실성 추정 및 보정 개선에서 테스트 시점 데이터 증강의 역할은 무엇인가?

주요 결과

일반적으로 많이 쓰이는 도메인 내 불확실성 지표들(로그 가능도, Brier 점수, 보정 지표)은 모델 간에 신뢰성 있게 비교되기 어렵고 방법의 순위를 잘못 매길 수 있다.
최적의 온도에서 평가된 보정된 로그 가능도가 도메인 내 불확실성의 더 안정적이고 비교 가능한 지표를 제공한다.
깊은 앙상블 등가(DEE) 점수는 깊은 앙상블의 등가 크기로 앙상블 방법을 비교하게 해주며, 주어진 테스트 시점 예산에서 깊은 앙상블이 종종 다른 방법보다 뛰어나다.
테스트 시점 데이터 증강(TTA)은 특히 ImageNet에서 앙상블 성능을 크게 향상시키며, 적은 비용으로 더 큰 앙상블에 필적할 수 있다.
여러 손실-풍경 모드를 탐색하는 방법들(깊은 앙상블, 스냅샷 앙상블, 주기적 SGLD)은 CIFAR 및 ImageNet에서 DEE 관점에서 드롭아웃, VI, K-FAC Laplace 같은 단일 모드 방법보다 우수하며, TTA는 적절한 온도 스케일링과 함께 보정과 정확도를 더욱 향상시킨다.
SSE와 cSGLD는 손실-풍경 모드를 효과적으로 탐색하지만 이익은 하이퍼파라미터와 데이터셋에 따라 달라지며, DEE는 포화 또는 과소적합이 발생하는 시점을 진단하는 데 도움이 된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.