QUICK REVIEW

[논문 리뷰] A Benchmark of Medical Out of Distribution Detection

Tianshi Cao, Chin‐Wei Huang|arXiv (Cornell University)|2020. 07. 08.

COVID-19 diagnosis using AI참고 문헌 19인용 수 39

한 줄 요약

논문은 chest X-ray, fundus imaging, histology의 네 가지 의학 영상 도메인에서 OoD 탐지 방법을 벤치마크하고 세 가지 OoD 사용 사례를 사용하며, 간단한 이진 특징 분류기가 종종 최상의 성능을 보이고 교육 분포에 가까운 샘플에 대해 탐지가 어렵다.

ABSTRACT

Motivation: Deep learning models deployed for use on medical tasks can be equipped with Out-of-Distribution Detection (OoDD) methods in order to avoid erroneous predictions. However it is unclear which OoDD method should be used in practice. Specific Problem: Systems trained for one particular domain of images cannot be expected to perform accurately on images of a different domain. These images should be flagged by an OoDD method prior to diagnosis. Our approach: This paper defines 3 categories of OoD examples and benchmarks popular OoDD methods in three domains of medical imaging: chest X-ray, fundus imaging, and histology slides. Results: Our experiments show that despite methods yielding good results on some categories of out-of-distribution samples, they fail to recognize images close to the training distribution. Conclusion: We find a simple binary classifier on the feature representation has the best accuracy and AUPRC on average. Users of diagnostic tools which employ these OoDD methods should still remain vigilant that images very close to the training distribution yet not in it could yield unexpected results.

연구 동기 및 목표

의료 영상에서 세 가지 OoD 사용 사례를 정의하고 강력한 OoD 탐지의 필요성을 동기화한다.
데이터 기반, 분류기 기반, 보조 모델을 포함한 방법 등 광범위한 OoD 방법을 여러 의료 영상 도메인에서 평가한다.
효과적인 OoD 방법에 대한 실용적 가이드를 제공하고 입력이 학습 분포에 근접할 때의 한계를 강조한다.

제안 방법

세 가지 OoD 범주를 정의한다: 관련 없는 입력, 잘못 준비된 입력, 학습 편향으로 인해 보이지 않는 조건.
가슴 X-ray, 망막, 조직학에 걸친 네 개의 의료 데이터셋에서 In 분포를 구성하고 각 사용 사례당 Out 데이터셋을 구성한다.
데이터-전용(KNN 등), 분류기-전용(임계값 설정, SVM, 이진 분류기), 보조 모델이 있는 방법(Autoencoder, VAE, ALI/BiGAN 등) 등 세 가지 OoD 방법 클래스를 평가한다.
태스크 네트워크(DenseNet-121)를 In 데이터에서 학습; OoD 방법은 In과 Out 샘플을 혼합한 검증 세트에서 학습; Balanced In/Out 테스트 세트에서 평가한다.
하이퍼파라미터를 탐색하고 Out 데이터 파티션 간 안정성 및 일반화를 평가하기 위해 다중 실험을 수행한다.

실험 결과

연구 질문

RQ1다양한 의료 영상 도메인에서 어떤 OoD 방법이 In과 Out 샘플을 가장 잘 구분하는가?
RQ2의료 OoD 작업에서 단순한 분류기 기반 OoD 탐지기가 보조 모델이 있는 방법과 동등하거나 더 우수한가?
RQ3관련 없는 데이터, 잘못된 준비, 보이지 않는 질환을 포함하는 사용 사례에서 OoD 성능은 어떻게 달라지는가?
RQ4여러 개의 Out 데이터가 OoD 탐지기 일반화에 미치는 영향은 무엇인가?
RQ5임상 워크플로우에서 OoD 방법의 설정 및 런타임의 실용적 트레이드오프는 무엇인가?

주요 결과

분류기-전용 방법은 특히 이진 분류기와 Mahalanobis가 전반적으로 높은 정확도와 AUPRC를 달성하며, 종종 보조 모델 방법보다 우수하다.
사용 사례 3(보이지 않는 질환)에서 탐지 성능이 크게 악화되며, 일부 평가에서 모든 방법이 무작위에 근접한 성능을 보인다.
D_val_Out에 여러 Out 데이터 세트를 사용하는 것은 경계 안정성과 일반화를 개선하여 일부 방법의 성능을 향상시킨다.
KNN 기반 데이터-전용 방법은 설정/런타임 트레이드오프가 좋지만 학습 데이터 저장으로 인해 메모리 집약적일 수 있다.
오토인코더 기반 및 기타 보조 모델 접근법은 모든 도메인에서 항상 더 단순한 분류기 기반 접근법보다 우수하지 않으며, 망막 영상이 주목할 만한 예외이다.
평가 전반에 걸쳐 많은 OoD 방법들이 학습 분포에 매우 근접한 샘플을 탐지하는 데 어려움을 겪는다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.