[논문 리뷰] Estimating Skin Tone and Effects on Classification Performance in Dermatology Datasets
이 논문은 ITA를 사용하여 두 개의 피부 질환 벤치마크에서 피부 톤 분포를 추정하고 대표성 격차를 검토하며 피부 톤 범주에 따른 분류기 성능을 평가하여 어두운 톤이 과소대표되지만 명확한 성능 편향은 발견되지 않았다.
Recent advances in computer vision and deep learning have led to breakthroughs in the development of automated skin image analysis. In particular, skin cancer classification models have achieved performance higher than trained expert dermatologists. However, no attempt has been made to evaluate the consistency in performance of machine learning models across populations with varying skin tones. In this paper, we present an approach to estimate skin tone in benchmark skin disease datasets, and investigate whether model performance is dependent on this measure. Specifically, we use individual typology angle (ITA) to approximate skin tone in dermatology datasets. We look at the distribution of ITA values to better understand skin color representation in two benchmark datasets: 1) the ISIC 2018 Challenge dataset, a collection of dermoscopic images of skin lesions for the detection of skin cancer, and 2) the SD-198 dataset, a collection of clinical images capturing a wide variety of skin diseases. To estimate ITA, we first develop segmentation models to isolate non-diseased areas of skin. We find that the majority of the data in the the two datasets have ITA values between 34.5° and 48°, which are associated with lighter skin, and is consistent with under-representation of darker skinned populations in these datasets. We also find no measurable correlation between performance of machine learning model and ITA values, though more comprehensive data is needed for further validation.
연구 동기 및 목표
- 두 공공 피부과 데이터셋에서 ITA를 사용하여 피부 톤 표현을 정량화한다.
- 질병이 없는 피부의 분할 마스크를 개발하여 이미지당 ITA를 계산한다.
- 피부 톤(ITA)이 이러한 데이터셋의 분류 성능과 상관관계가 있는지 평가한다.
- 데이터셋의 편향을 강조하고 더 균형 잡히고 공정한 피부과 의사 이미지 데이터셋에 대한 지침을 제공한다.
제안 방법
- 피부 병변을 분할하고 질병이 없는 피부 영역을 추출하기 위해 Mask R-CNN를 학습한다.
- CIELab의 L 및 b를 사용하여 비질병 피부에서 ITA를 계산하고 ITA를 8개 범주로 구간화한다.
- ISIC2018(10,015개 이미지, 7개 클래스) 및 SD-136(4,467개 이미지, 136개 클래스)에 대해 적절한 증강 및 가중치 손실을 적용하여 DenseNet-201 모델을 훈련한다.
- 10개의 무작위 분할에서 검증 세트 정확도와 표준 오차를 사용하여 ITA 기반 피부 톤 범주에 걸친 분류 성능을 평가한다.
실험 결과
연구 질문
- RQ1ISIC2018과 SD-136이 더 어두운 피부 톤 ITA 값을 과소대표하는가?
- RQ2이 데이터셋들에서 ITA 기반 피부 톤과 분류기 성능 사이에 측정 가능한 상관관계가 있는가?
- RQ3다른 ITA 범주에서 피부 톤 표현이 분류 정확도에 어떤 영향을 미치는가?
주요 결과
| 데이터세트 | 정확도 | 매우_밝음 | 밝음2 | 밝음1 | 중간2 | 중간1 | 태닝2 | 태닝1 | 어두움 |
|---|---|---|---|---|---|---|---|---|---|
| ISIC2018 | 0.869 | 0.94 | 0.86 | 0.87 | 0.87 | 0.86 | 0.95 | 0.83 | 0.92 |
| SD-136 | 0.604 | 0.50 | 0.57 | 0.58 | 0.60 | 0.62 | 0.66 | 0.67 | 0.72 |
- ISIC2018과 SD-136 모두 ITA 값이 주로 더 밝은 범주에 있어 어두운 피부 톤의 과소대표를 시사한다.
- ISIC2018의 분할 품질은 높으며(정확도 0.956), SD-136은 0.802로 ITA 추정이 가능하다.
- 연구 대상 데이터셋의 검증 세트에서 ITA 값과 분류 성능 사이에 측정 가능한 상관관계가 없다.
- ISIC2018은 전체 정확도 0.869를 달성(피부 톤 전반에 걸쳐 very_light 0.94에서 tan1 0.83); SD-136은 전체 정확도 0.604를 달성(톤 간 0.50에서 0.72)
- 전반적으로 이 연구는 ITA 기반 피부 톤 범주에 따른 모델 성능에서 명확한 경향을 발견하지 못했으며, 확정적 주장을 위해서는 더 많은 데이터가 필요하다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.