QUICK REVIEW

[논문 리뷰] WonDerM: Skin Lesion Classification with Fine-tuned Neural Networks

Yeong Chan Lee, Sang‐Hyuk Jung|arXiv (Cornell University)|2018. 08. 10.

Cutaneous Melanoma Detection and Management참고 문헌 14인용 수 32

한 줄 요약

WonDerM는 분류 과제에서 미리 훈련된 세분화 작업 기반의 미세조정된 DenseNet 아키텍처와 앙상블 학습을 활용하여 다중 클래스 피부 병변 분류를 위한 딥러닝 파이프라인을 제안한다. 이 방법은 ISIC 2018 챌린지에서 검증 세트에서 89.9%의 정확도와 테스트 세트에서 78.5%의 정확도를 달성하여 전이 학습과 가중 앙상블 스코어링을 통해 성능 향상을 입증한다.

ABSTRACT

As skin cancer is one of the most frequent cancers globally, accurate, non-invasive dermoscopy-based diagnosis becomes essential and promising. A task of the Part 3 of the ISIC Skin Image Analysis Challenge at MICCAI 2018 is to predict seven disease classes with skin lesion images, including melanoma (MEL), melanocytic nevus (NV), basal cell carcinoma (BCC), actinic keratosis / Bowen's disease (intraepithelial carcinoma) (AKIEC), benign keratosis (solar lentigo / seborrheic keratosis / lichen planus-like keratosis) (BKL), dermatofibroma (DF) and vascular lesion (VASC) as defined by the International Dermatology Society. In this work, we design the WonDerM pipeline, that resamples the preprocessed skin lesion images, builds neural network architecture fine-tuned with segmentation task data (the Part 1), and uses an ensemble method to classify the seven skin diseases. Our model achieved an accuracy of 0.899 and 0.785 in the validation set and test set, respectively.

연구 동기 및 목표

모낭성 영상에서의 다중 클래스 피부 병변 분류 문제에 있어 클래스 불균형 문제를 해결하기 위해.
세분화 과제에서의 전이 학습을 활용하여, 메라노마 및 양성 병변을 포함한 일곱 가지 피부 질환 클래스의 분류 성능을 향상시키기 위해.
다양한 분류기를 결합하고 가중 확률 스코어링을 통해 예측 신뢰도를 향상시키는 강력한 앙상블 모델을 개발하기 위해.
세분화 데이터에서 학습된 형태학적 및 공간적 특징을 활용하여 분류 과제에서의 일반화 성능 향상시키기 위해.

제안 방법

파이프라인은 2,594장의 이미지에서 피부 병변 세분화를 위해 사전 훈련된 DenseNet-U-Net 아키텍처를 사용하여 고수준 특징을 추출한다.
세분화 모델의 인코더 부분은 HAM10000 데이터셋에서 유의미하게 재표본화된 28,052장의 균형 잡힌 훈련 세트에서 미세조정된다.
다섯 개의 별도 분류 모델이 각각 다른 균형 잡힌 데이터셋에서 훈련되며, 각 모델은 소수 클래스의 크기에 맞게 조정된다 (예: BCC는 약 463장의 이미지).
가중 앙상블 방법은 클래스별 진짜 양성 비율을 가중치로 사용하여 모델 신뢰도의 불균형을 보정한다.
최종 예측은 가중 확률 스코어가 가장 높은 클래스를 선택함으로써 이루어지며, 공식은 다음과 같다: $\tilde{P}_{ij\cdot} = \frac{\sum_{\forall k} w_k^{(j)} P_{ijk}}{\sum_{\forall j} \sum_{\forall k} w_k^{(j)} P_{ijk}}$, 여기서 $w_k^{(j)}$는 네트워크 $k$에서 클래스 $j$의 진짜 양성 비율이다.
데이터 증강에는 소수 클래스(DF, VASC)에 대해 90°, 180°, 270° 회전, 수직 및 수평 반전을 포함한다.

실험 결과

연구 질문

RQ1세분화 과제에서의 전이 학습이 다중 클래스 피부 병변 진단의 분류 성능 향상에 기여하는가?
RQ2가중 확률 스코어링을 활용한 앙상블 학습은 피부 병변 분류에서의 클래스 불균형 문제를 얼마나 효과적으로 완화하는가?
RQ3소수 클래스 빈도를 목표로 하여 훈련 데이터를 재표본화하는 것이 모든 클래스에 걸쳐 모델 일반화 성능 향상에 기여하는가?
RQ4하이브리드 DenseNet-U-Net 아키텍처는 분류와 세분화에 모두 유용한 형태학적 특징을 효과적으로 추출할 수 있는가?

주요 결과

앙상블 모델은 검증 정확도 89.9%를 달성하여 개별 모델보다 뚜렷이 뛰어난 성능을 보였다.
테스트 세트에서는 78.5%의 정확도를 기록하여 미지의 데이터에 대한 강력한 일반화 능력을 입증하였다.
가중 앙상블 스코어링 방법은 소수 클래스에 대한 편향을 줄이기 위해 소수 클래스에서 높은 진짜 양성 비율을 보인 모델에 더 높은 가중치를 할당하여 효과적으로 작용하였다.
세분화 과제에서 사전 훈련된 특징의 사용은 특히 복잡한 형태학적 패턴을 가진 피부 병변에서 특징 학습을 향상시켰다.
소수 클래스 빈도를 목표로 훈련 세트를 재표본화함으로써 (예: 각 클래스당 463장의 이미지) DF 및 VASC와 같은 소수 클래스에서의 모델 성능이 크게 향상되었다.
혼동 행렬 분석 결과 모든 일곱 개의 클래스에서 일관된 성능을 보였으며, NV(모반)에서 가장 높은 정확도를 기록했고, MEL 및 BCC는 중간에서 높은 정확도를 보였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.