[논문 리뷰] Skin Cancer Detection utilizing Deep Learning: Classification of Skin Lesion Images using a Vision Transformer
피험 논문은 HAM10000에서 여덟 가지 피부암 유형을 분류하기 위해 사전 학습된 Vision Transformer(ViT) 모델(ViT_L16 및 ViT_L32)을 평가하여, 정확도 및 흑색종 재현율에서 ViT가 전통 방법 및 CNN 베이스라인을 능가함을 보인다.
Skin cancer detection still represents a major challenge in healthcare. Common detection methods can be lengthy and require human assistance which falls short in many countries. Previous research demonstrates how convolutional neural networks (CNNs) can help effectively through both automation and an accuracy that is comparable to the human level. However, despite the progress in previous decades, the precision is still limited, leading to substantial misclassifications that have a serious impact on people's health. Hence, we employ a Vision Transformer (ViT) that has been developed in recent years based on the idea of a self-attention mechanism, specifically two configurations of a pre-trained ViT. We generally find superior metrics for classifying skin lesions after comparing them to base models such as decision tree classifier and k-nearest neighbor (KNN) classifier, as well as to CNNs and less complex ViTs. In particular, we attach greater importance to the performance of melanoma, which is the most lethal type of skin cancer. The ViT-L32 model achieves an accuracy of 91.57% and a melanoma recall of 58.54%, while ViT-L16 achieves an accuracy of 92.79% and a melanoma recall of 56.10%. This offers a potential tool for faster and more accurate diagnoses and an overall improvement for the healthcare sector.
연구 동기 및 목표
- 임상 의사 부족과 긴 대기 시간을 해결하기 위한 자동화되고 정확한 피부암 탐지의 필요성 제시.
- 사전 학습된 Vision Transformer 모델이 피부 병변 분류에서 CNN 및 전통 분류기보다 우수한지 평가.
- 높은 사망 위험으로 인한 흑색종 탐지 성능(재현율)에 초점.
- 클래스 불균형을 완화하기 위한 데이터 증강을 활용하고 보류된 테스트 세트에서 평가.
제안 방법
- 224x224 입력과 7클래스 출력을 가진 두 가지 사전 학습 ViT 구성(ViT_L16 및 ViT_L32) 사용.
- 피부암 유형에 대한 7-노드 softmax 출력으로 ViT 분류기 헤드 교체.
- SGD 옵티마이저와 교차 엔트로피 손실로 학습, 얼리 스토핑, 최적 가중치 체크포인트, 학습률 스케줄링.
- 클래스 불균형 해결을 위해 회전, 이동, 밝기, 줌 등 데이터 증강 적용.
- 결정 트리(DTC), KNN, CNN 베이스라인 및 기존 ViT/CNN 결과와 ViT 모델 비교.
- 테스트 세트의 정확도와 흑색종별 재현율을 보고하여 치명적 암 탐지에 초점.
실험 결과
연구 질문
- RQ1대형 사전 학습 ViT 모델(ViT_L16, ViT_L32)이 HAM10000 피부암 데이터셋에서 전통 ML 모델 및 CNN 기반 접근법보다 우수한가?
- RQ27-클래스 피부암 분류에서 ViT_L16 및 ViT_L32의 정확도 및 흑색종 재현율은 얼마인가?
- RQ3이 불균형 데이터셋에서 데이터 증강이 모델 성능 및 과적합에 어떤 영향을 주는가?
- RQ4이 연구에서 ViT 모델이 다른 모델에 비해 흑색종 탐지에 더 효과적인가?
주요 결과
- ViT_L32는 정확도 91.57% 및 흑색종 재현율 58.54%를 달성.
- ViT_L16은 정확도 92.79% 및 흑색종 재현율 56.10%를 달성.
- 두 ViT_L16 및 ViT_L32는 DTC(61.06% 정확도) 및 KNN(65.45% 정확도)을 상회.
- ViT 모델은 또한 관련 연구에서 보고된 기존 CNN 결과 및 소형 ViT 구성보다 우수한 성능을 보임.
- 부록의 경향성 연구에서 다양한 설계 선택이 정확도에 최대 92.79%까지 영향을 미침.
- ViT의 주의 메커니즘은 기본 모델 대비 병변 인식에 우수한 기여를 한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.