QUICK REVIEW

[논문 리뷰] Skin Lesion Diagnosis using Ensembles, Unscaled Multi-Crop Evaluation and Loss Weighting

Nils Gessert, Thilo Sentker|arXiv (Cornell University)|2018. 08. 05.

Cutaneous Melanoma Detection and Management참고 문헌 16인용 수 65

한 줄 요약

이 논문은 unscaled multi-crop 평가와 loss weighting으로 클래스 불균형 문제를 다루며 ISIC 2018 피부 병변 진단에서 사전학습 CNN 앙상블을 구축하고 높은 가중치 정확도(WACC)를 달성한다.

ABSTRACT

In this paper we present the methods of our submission to the ISIC 2018 challenge for skin lesion diagnosis (Task 3). The dataset consists of 10000 images with seven image-level classes to be distinguished by an automated algorithm. We employ an ensemble of convolutional neural networks for this task. In particular, we fine-tune pretrained state-of-the-art deep learning models such as Densenet, SENet and ResNeXt. We identify heavy class imbalance as a key problem for this challenge and consider multiple balancing approaches such as loss weighting and balanced batch sampling. Another important feature of our pipeline is the use of a vast amount of unscaled crops for evaluation. Last, we consider meta learning approaches for the final predictions. Our team placed second at the challenge while being the best approach using only publicly available data.

연구 동기 및 목표

HAM10000 및 ISIC 데이터셋에서 피부 병변 분류의 심한 클래스 불균형 해결.
일곱 클래스 병변 진단을 위한 사전학습 CNN 앙상블 개발.
성능 향상을 위한 unscaled multi-crop 평가와 loss weighting 평가.
여러 모델의 최종 예측을 다듬기 위한 메타러닝 도입.

제안 방법

HAM 및 ISIC 데이터에 대해 사전학습된 CNN(Densenet, SENet, ResNeXt 등)을 미세조정한다.
역클래스 빈도 기반의 loss weighting으로 클래스의 균형을 맞이하는 실험.
이미지당 unscaled 224x224 크롭과 36-크롭 평가를 수행하여 예측을 집계한다.
36-크롭 예측에 대해 메타러닝(SVM RBF 커널) 적용.
CV 모델과 완전 학습된 모델의 예측을 평균으로 결합(투표와 비교).
5-폴드 CV 성능을 기준으로 상위 아키텍처 중 최종 앙상블을 선택.

실험 결과

연구 질문

RQ1심한 클래스 불균형이 일곱 클래스 피부 병변 진단 성능에 어떤 영향을 미치는가?
RQ2최신 CNN들의 앙상블이 unscaled multi-crop 평가로 ISIC 2018 과제의 WACC를 개선할 수 있는가?
RQ3loss weighting, 균형 배치, 메타러닝의 최종 예측에 미치는 영향은 무엇인가?
RQ4평균으로 합치는 CV 모델과 완전 학습 모델의 결합이 다른 융합 방법보다 더 나은 결과를 낳는가?

주요 결과

앙상블은 테스트된 접근법 중에서 최상의 WACC를 달성했고 최종 앙상블 성능은 0.851(WACC)이다.
단일 모델 중에서 SENet154가 WACC에서 최고를 기록했다(일부 설정에서 0.817).
HAM 학습에 ISIC 데이터를 추가하면 일부 모델이 개선되었다(예: ISIC를 포함한 DenseNet121의 WACC 0.804).
36-크롭 평가와 메타러닝의 결합이 다수 아키텍처에서 단일 크롭 또는 비메타 접근법보다 이득을 제공했다.
더 최근 아키텍처(Densenet, ResNeXt, PolyNet, SENet)가 Inception/ResNet 변형과 같은 베이스라인을 능가했다.
최종 앙상블은 54개의 모델로 구성되었고 가장 전체 성능이 좋았다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.