[論文レビュー] Skin Lesion Analysis toward Melanoma Detection: A Challenge at the International Symposium on Biomedical Imaging (ISBI) 2016, hosted by the International Skin Imaging Collaboration (ISIC)
ISICダーモスコピー画像を用いた、公的なマルチタスク黒色腫診断ベンチマーク(セグメンテーション、ダーモスコピー特徴検出、分類)を説明。訓練画像900枚、テスト画像379枚、38名の参加者のタスク・評価指標・結果を詳述。
In this article, we describe the design and implementation of a publicly accessible dermatology image analysis benchmark challenge. The goal of the challenge is to sup- port research and development of algorithms for automated diagnosis of melanoma, a lethal form of skin cancer, from dermoscopic images. The challenge was divided into sub-challenges for each task involved in image analysis, including lesion segmentation, dermoscopic feature detection within a lesion, and classification of melanoma. Training data included 900 images. A separate test dataset of 379 images was provided to measure resultant performance of systems developed with the training data. Ground truth for both training and test sets was generated by a panel of dermoscopic experts. In total, there were 79 submissions from a group of 38 participants, making this the largest standardized and comparative study for melanoma diagnosis in dermoscopic images to date. While the official challenge duration and ranking of participants has concluded, the datasets remain available for further research and development.
研究の動機と目的
- dermoscopic 画像からの自動黒色腫診断を進展させるための公開ベンチマークを提供する。
- セグメンテーション、ダーモスコピー特徴検出、および悪性分類を標準化された枠組みで評価する。
- 専門家によるグラウンドトTruth アノテーションを用いたアルゴリズムの機関間比較を可能にする。
提案手法
- 三つのチャレンジ部分は病変分析に対応し、セグメンテーション、ダーモスコピー特徴検出/セグメンテーション(グロブuleとストリークをスーパーピクセルで使用)、および疾患分類に対応する。
- 訓練データ: ground truth を含む900枚の画像; テストセット: 379枚。
- グラウンドト Truth はダーモスコピー専門家によってアノテーションされた。
- 評価プラットフォーム Covalic によりリアルタイム提出とランキングが可能。
- 指標にはセグメンテーションのピクセルレベルの精度、感度、特異度、Dice、Jaccard、分類の精度、感度、特異度、平均精度、AUC、SP95、SP98 が含まれる。
実験結果
リサーチクエスチョン
- RQ1自動手法は専門家のアノテーションと比較してダーモスコピー皮膚病変のセグメンテーションをどれくらい正確に行えるか。
- RQ2自動システムは病変内のダーモスコピー特徴(グロブule、ストリーク)を正確に検出できるか、そしてスーパーピクセルベースのラベルが性能にどう影響するか。
- RQ3保持されたテストデータ上での自動黒色腫分類(良性 vs 悊 malignant) の性能は、専門家のベンチマークと比較してどうか。
主な発見
| Part | AC | SE | SP | AP | AUC | SP95 | SP98 |
|---|---|---|---|---|---|---|---|
| 2 | 0.916 | 0.505 | 0.920 | 0.243 | 0.677 | - | - |
| 3 | 0.855 | 0.507 | 0.941 | 0.637 | 0.804 | 0.227 | 0.095 |
| 3B | 0.855 | 0.547 | 0.931 | 0.624 | 0.783 | 0.125 | 0.086 |
| 1 | 0.953 | 0.910 | 0.965 | 0.910 | 0.843 | - | - |
| 2B | 0.962 | 0.396 | 0.968 | 0.128 | 0.070 | - | - |
- 38名の参加者から5つのタスク変種で79件の提出。
- セグメンテーションのトップ: AC 0.953, SE 0.910, SP 0.965, DI 0.910, JA 0.843(Part 1)。
- セグメンテーション(Part 2B)のトップ: AC 0.962, SE 0.396, SP 0.968, DI 0.128, JA 0.070。
- 分類のトップ: Part 2: AC 0.916, SE 0.505, SP 0.920, AP 0.243, AUC 0.677。
- 分類 Part 3: AC 0.855, SE 0.507, SP 0.941, AP 0.637, AUC 0.804。
- 分類 Part 3B: AC 0.855, SE 0.547, SP 0.931, AP 0.624, AUC 0.783。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。