QUICK REVIEW

[논문 리뷰] A Systematic Comparison of Bayesian Deep Learning Robustness in Diabetic Retinopathy Tasks

Angelos Filos, Sebastian Farquhar|arXiv (Cornell University)|2019. 12. 22.

Anomaly Detection Techniques and Applications참고 문헌 47인용 수 73

한 줄 요약

이 논문은 당뇨병성 망막병증에 대한 현실 세계의 Bayesian 딥 러닝 벤치마크를 제시하고, 불확실성 기반 의뢰(task)에서 여러 BDL 방법(MC Dropout, MFVI, Deep Ensembles 등)을 체계적으로 비교한다. 앙상블 방법이 종종 MFVI를 능가하고 UCI 벤치마크가 방법 순위를 오도할 수 있음을 보여준다.

ABSTRACT

Evaluation of Bayesian deep learning (BDL) methods is challenging. We often seek to evaluate the methods' robustness and scalability, assessing whether new tools give `better' uncertainty estimates than old ones. These evaluations are paramount for practitioners when choosing BDL tools on-top of which they build their applications. Current popular evaluations of BDL methods, such as the UCI experiments, are lacking: Methods that excel with these experiments often fail when used in application such as medical or automotive, suggesting a pertinent need for new benchmarks in the field. We propose a new BDL benchmark with a diverse set of tasks, inspired by a real-world medical imaging application on \emph{diabetic retinopathy diagnosis}. Visual inputs (512x512 RGB images of retinas) are considered, where model uncertainty is used for medical pre-screening---i.e. to refer patients to an expert when model diagnosis is uncertain. Methods are then ranked according to metrics derived from expert-domain to reflect real-world use of model uncertainty in automated diagnosis. We develop multiple tasks that fall under this application, including out-of-distribution detection and robustness to distribution shift. We then perform a systematic comparison of well-tuned BDL techniques on the various tasks. From our comparison we conclude that some current techniques which solve benchmarks such as UCI `overfit' their uncertainty to the dataset---when evaluated on our benchmark these underperform in comparison to simpler baselines. The code for the benchmark, its baselines, and a simple API for evaluating new BDL tools are made available at https://github.com/oatml/bdl-benchmarks.

연구 동기 및 목표

UCI와 같은 toy 데이터셋을 넘어서 현실적인 BDL 벤치마크의 필요성을 동기화하고, 불확실성이 전문가 의뢰를 촉발하는 의료 진단에 중점을 둔다.
현실 세계 제약에서의 불확실성을 평가하기 위해 하류 의뢰 태스크를 포함한 당뇨병성 망막병증 벤치마크를 개발한다.
분포 내/분포 이동 시나리오에서 잘 조정된 베이지안 딥 러닝 기법을 비교하여 확장성 및 신뢰성을 평가한다.
새로운 BDL 도구의 신속한 개발을 촉진하기 위한 오픈 소스 벤치마크 코드와 평가 API를 제공한다.

제안 방법

Kaggle DR Detection 데이터를 사용하여 당뇨병성 망막병증 벤치마크를 구성하고 binary "시력 위협 DR" 태스크로 재구성한다.
이미지를 512x512 크기로 컬러 채널, 정규화, 아핀 데이터 증강으로 전처리한다.
전문가 의뢰와 자원 할당을 시뮬레이션하기 위한 불확실성 임계값을 사용한 의뢰 기반 하류 태스크를 정의한다.
예측 엔트로피로 불확실성을 평가하고 데이터 유지(의뢰) 비율에 따라 방법을 비교한다.
베이스라인 구현 및 조정: 몬테카를로 드롭아웃(MC), 평균장변분추정(MFVI), 딥 앙상블, 결정론적 베이스라인, 엔 ensemble MC Dropout.
통계적 안정성을 보장하기 위해 방법별로 시드 아홉 개를 학습하고, 분포 내 Kaggle 데이터와 분포 외 APTOS 2019 데이터에서 비교한다.

실험 결과

연구 질문

RQ1의료 DR 진단 태스크에서 예측 불확실성을 보정하고 활용하는 다양한 베이지안 딥 러닝 기법은 어떻게 작동하는가?
RQ2의뢰를 통해 일부 데이터가 전문가에게 의뢰될 때 불확실성 인식 방법은 성능을 유지하는가, 즉 다양한 의뢰 비율에서?
RQ3일반적인 BDL 벤치마크(UCI 등)가 분포 이동이 있는 현실적 의료 벤치마크에서 성능으로 어떻게 번역되는가?
RQ4외분포의 의료 영상 데이터에 대해 어떤 방법이 확장성과 일반화에 가장 우수한가?

주요 결과

앙상블 기반 및 MC Dropout 방식은 MFVI 및 결정론적 베이스라인보다 의뢰 비율이 증가함에 따라 더 높은 AUC와 정확도를 일관되게 달성한다.
데이터를 100% 유지할 때 모든 방법이 비슷한 성능으로 수렴하지만, 의뢰가 있을 때 앙상블 MC Dropout 및 MC Dropout 변형이 더 큰 이득을 보여 불확실성 추정이 더 우수함을 시사한다.
Kaggle의 외부 데이터에서 Ensemble MC Dropout은 특정 의뢰 비율에서 최고 AUC 및 정확도를 달성한다(예: 50% 유지: AUC 88.1±1.2, 정확도 92.4±0.9).
평균장 VI 및 MFVI는 분포 이동(APTOS 2019)에 대해 MC Dropout 및 Deep Ensembles에 비해 성능이 저하되는 경향이 있어 로 robustness 차이를 강조한다.
이 연구는 UCI와 같은 간단한 벤치마크에 불확실성을 과도하게 적합시키면 실제 대규모 태스크에서 방법 순위를 오도할 수 있다고 주장한다.
벤치마크와 API를 공개적으로 제공하여 새로운 BDL 도구의 평가를 촉진한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.