[論文レビュー] Estimating Skin Tone and Effects on Classification Performance in Dermatology Datasets
本論文では、ITA を用いて二つの皮膚科ベンチマークにおける皮膚色分布を推定し、表現のギャップを検討し、皮膚色カテゴリ別の分類器性能を評価した。より暗いトーンの過小表現であるが、性能バイアスは明確には見られない。
Recent advances in computer vision and deep learning have led to breakthroughs in the development of automated skin image analysis. In particular, skin cancer classification models have achieved performance higher than trained expert dermatologists. However, no attempt has been made to evaluate the consistency in performance of machine learning models across populations with varying skin tones. In this paper, we present an approach to estimate skin tone in benchmark skin disease datasets, and investigate whether model performance is dependent on this measure. Specifically, we use individual typology angle (ITA) to approximate skin tone in dermatology datasets. We look at the distribution of ITA values to better understand skin color representation in two benchmark datasets: 1) the ISIC 2018 Challenge dataset, a collection of dermoscopic images of skin lesions for the detection of skin cancer, and 2) the SD-198 dataset, a collection of clinical images capturing a wide variety of skin diseases. To estimate ITA, we first develop segmentation models to isolate non-diseased areas of skin. We find that the majority of the data in the the two datasets have ITA values between 34.5° and 48°, which are associated with lighter skin, and is consistent with under-representation of darker skinned populations in these datasets. We also find no measurable correlation between performance of machine learning model and ITA values, though more comprehensive data is needed for further validation.
研究の動機と目的
- ITA を用いて2つの公的な皮膚科データセットにおける皮膚色表現を定量化する。
- 非病変皮膚をセグメントして画像ごとに ITA を計算するセグメンテーションマスクを開発する。
- 皮膚色(ITA)がこれらのデータセットの分類性能と相関するかを評価する。
- データセットの偏りを指摘し、よりバランスが取れた公正な皮膚科医画像データセットの作成に向けた指針を提供する。
提案手法
- Mask R-CNN を訓練して皮膚病変をセグメントし、非病変の皮膚領域を抽出する。
- CIELab の L と b を用いて非病変の皮膚から ITA を計算し、ITA を8カテゴリにビン分けする。
- ISIC2018(10,015 枚、7 クラス)と SD-136(4,467 枚、136 クラス)に対し、適切なデータ拡張とクラス重み付き損失を用いてDenseNet-201モデルを訓練する。
- ITAベースの皮膚色カテゴリごとの分類性能を、検証集合の精度と10回の乱数分割からの標準誤差を用いて評価する。
実験結果
リサーチクエスチョン
- RQ1ISIC2018とSD-136は、より暗い皮膚色の ITA 値を過小表現しているか。
- RQ2これらのデータセットにおいて ITA ベースの皮膚色と分類性能の間に測定可能な相関があるか。
- RQ3異なる ITA カテゴリ間で皮膚色表現が分類精度にどのように影響するか。
主な発見
- ISIC2018 と SD-136 の両方は、ITA 値が主に明るいカテゴリに分布しており、暗い皮膚色の過小表現を示している。
- セグメンテーション品質は ISIC2018 が高く(精度 0.956)、SD-136 が高く(0.802)、ITA 推定を可能にしている。
- studied datasets の検証セット内で ITA 値と分類性能の間に測定可能な相関はない。
- ISIC2018 は全体精度 0.869 を達成(皮膚トーン全体で very_light が 0.94 から tan1 が 0.83 へ)、SD-136 は全体精度 0.604 を達成(0.50 から 0.72 までのトーンで)。
- 全体として、ITA ベースの皮膚色カテゴリ間でモデル性能に明確な傾向は見られなかったが、結論づけるにはデータがさらに必要である。」] ,
- table_headers':['データセット','精度','very_lt','lt2','lt1','int2','int1','tan2','tan1','暗い'],
- table_rows':[[
- ISIC2018
- 0.869
- 0.94
- 0.86
- 0.87
- 0.87
- 0.86
- 0.95
- 0.83
- 0.92
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。