[論文レビュー] Skin Lesion Diagnosis using Ensembles, Unscaled Multi-Crop Evaluation and Loss Weighting
本論文は、ISIC 2018の皮膚病変診断におけるクラス不均衡に対処するため、未スケールのマルチクロップ評価と損失ウェイティングを用いた事前学習済みCNNのエンサンブルを構築し、高い加重精度を達成した。
In this paper we present the methods of our submission to the ISIC 2018 challenge for skin lesion diagnosis (Task 3). The dataset consists of 10000 images with seven image-level classes to be distinguished by an automated algorithm. We employ an ensemble of convolutional neural networks for this task. In particular, we fine-tune pretrained state-of-the-art deep learning models such as Densenet, SENet and ResNeXt. We identify heavy class imbalance as a key problem for this challenge and consider multiple balancing approaches such as loss weighting and balanced batch sampling. Another important feature of our pipeline is the use of a vast amount of unscaled crops for evaluation. Last, we consider meta learning approaches for the final predictions. Our team placed second at the challenge while being the best approach using only publicly available data.
研究の動機と目的
- HAM10000およびISICデータセットにおける皮膚病変分類の深刻なクラス不均衡に対処する。
- 7クラスの病変診断のための事前学習済みCNNのエンサンブルを開発する。
- 性能向上のために未スケールのマルチクロップ評価と損失ウェイティングを評価する。
- 複数モデルからの最終予測を洗練させるためにメタ学習を組み込む。
提案手法
- HAMおよびISICデータ上で事前学習済みCNN(DenseNet、SENet、ResNeXt など)を微調整する。
- クラスの不均衡を是正するために逆クラス頻度に基づく損失ウェイティングを試す。
- 画像ごとに未スケールの224x224クロップと36クロップ評価を実施して予測を統合する。
- 36クロップの予測に対してメタ学習(RBFカーネルを持つSVM)をCVモデルに適用する。
- CVモデルと完全に訓練されたモデルの予測を平均化して結合(投票との比較)する。
- 5分割CVの性能に基づいてトップアーキテクチャから最終エンサンブルを選択する。
実験結果
リサーチクエスチョン
- RQ1深刻なクラス不均衡は7クラスの皮膚病変診断の性能にどう影響するか?
- RQ2最先端CNNのエンサンブルと未スケールのマルチクロップ評価はISIC 2018タスクの加重精度(WACC)を改善できるか?
- RQ3損失ウェイティング、バランスの取れたバッチ処理、メタ学習が最終予測に与える影響は?
- RQ4平均化によるCVモデルと完全に訓練されたモデルの結合は、他の結合手法より良い結果をもたらすか?
主な発見
| モデル | MACC | MAUC | WACC |
|---|---|---|---|
| Densenet121 | 0.823 | 0.967 | 0.795 |
| Densenet121 with SVM | 0.827 | - | 0.822 |
| Densenet121 with ISIC | 0.870 | 0.974 | 0.804 |
| Densenet121 no pretraining | 0.678 | 0.931 | 0.694 |
| Densenet121 16-crop eval. | 0.822 | 0.966 | 0.785 |
| Densenet161 | 0.861 | 0.976 | 0.809 |
| Densenet169 | 0.852 | 0.971 | 0.806 |
| ResNet50 | 0.862 | 0.971 | 0.779 |
| SE-ResNet50 | 0.829 | 0.966 | 0.790 |
| SE-ResNet101 | 0.838 | 0.969 | 0.810 |
| ResNeXt101 32x4d | 0.836 | 0.970 | 0.808 |
| SE-ResNeXt50 | 0.834 | 0.968 | 0.797 |
| SE-ResNeXt101 | 0.860 | 0.971 | 0.803 |
| DualPathNet92 | 0.862 | 0.972 | 0.804 |
| SENet154 | 0.854 | 0.974 | 0.817 |
| PolyNet | 0.845 | 0.970 | 0.802 |
| Ensemble | - | - | 0.851 |
- エンサンブルはテストしたアプローチの中で最良のWACCを達成し、最終エンサンブルの性能は0.851(WACC)であった。
- 単一モデルの中でSENet154だけがWACCで最も良かった(ある設定で0.817)。
- HAMの訓練にISICデータを追加すると一部のモデルが改善された(例:ISICを加えたDenseNet121はWACC 0.804に達成)。
- 36クロップ評価とメタ学習を組み合わせることで、いくつかのアーキテクチャで単一クロップや非メタ手法より改善が見られた。
- 最近のアーキテクチャ(Densenet、ResNeXt、PolyNet、SENet系)はInception/ResNet系のようなベースラインを上回った。
- 最終エンサンブルは54モデルからなり、全体で最高の性能を示した。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。