Skip to main content
QUICK REVIEW

[論文レビュー] Ensemble of Convolutional Neural Networks for Automatic Grading of Diabetic Retinopathy and Macular Edema

Avinash Kori, Sai Saketh Chennamsetty|arXiv (Cornell University)|Sep 12, 2018
Retinal Imaging and Analysis参考文献 5被引用数 34
ひとこと要約

本論文は、網膜画像からの糖尿病性網膜症(DR)および黄斑浮腫(DME)の自動採点のため、転移学習を適用した畳み込みニューラルネットワーク(CNN)のアンサンブルを提案する。複数の事前学習済みResNetおよびDenseNetモデルを組み合わせ、モデルの削減、10クロップ増幅、マックス投票による推論を適用することで、DR採点で83.9%(n=56)、DME採点で95.45%(n=44)の精度を達成し、単一モデルに比べてより高いロバスト性と性能を示した。

ABSTRACT

In this manuscript, we automate the procedure of grading of diabetic retinopathy and macular edema from fundus images using an ensemble of convolutional neural networks. The availability of limited amount of labeled data to perform supervised learning was circumvented by using transfer learning approach. The models in the ensemble were pre-trained on a large dataset comprising natural images and were later fine-tuned with the limited data for the task of choice. For an image, the ensemble of classifiers generate multiple predictions, and a max-voting based approach was utilized to attain the final grade of the anomaly in the image. For the task of grading DR, on the test data (n=56), the ensemble achieved an accuracy of 83.9\%, while for the task for grading macular edema the network achieved an accuracy of 95.45% (n=44).

研究の動機と目的

  • 深層学習を用いて、網膜画像からの糖尿病性網膜症(DR)および黄斑浮腫(DME)の臨床的採点を自動化すること。
  • ImageNetで事前学習されたモデルを活用することで、限られたラベル付き医療画像データの課題に対処すること。
  • アンサンブル学習により多様なCNNアーキテクチャを統合することで、分類精度とロバスト性を向上させること。
  • 2段階の分類器アーキテクチャを用いて、レアなDR重症度クラスのデータの不均衡を軽減し、性能を向上させること。
  • データ増幅(10クロップ推論)、モデルの削減、アンサンブル投票の影響が最終的な採点性能に与える影響を評価すること。

提案手法

  • 8つの事前学習済みCNN(ResNetおよびDenseNetの変種)のアンサンブルを用い、限られたDRおよびDME網膜画像データでモデルをファインチューニングする。
  • 転移学習は、ImageNetで事前学習された重みでモデルを初期化し、医療データセットでファインチューニングすることで適用する。
  • 画像前処理には、224×224へのリサイズ、強度正規化、ImageNet統計を用いたzスコア正規化が含まれる。
  • DR採点のため、2段階の分類器を用いる:主なアンサンブルで4クラス(正常、軽度、中等度、重度-PDR)を分類し、エキスパートアンサンブルで重度非増殖性NPDRとPDRを区別する。
  • DME採点のため、クラスの不均衡を扱うために1対すべて(OVR)戦略を適用し、各クラスごとに別個のアンサンブルを訓練する。
  • 最終的な予測は、アンサンブル内のすべてのモデルのマックス投票により行われ、DMEの場合はモデル出力に基づいた意思決定ルールが適用される。

実験結果

リサーチクエスチョン

  • RQ1限られたラベル付きデータで、転移学習を適用したCNNのアンサンブルが単一モデルを上回る性能を示せるか?
  • RQ2モデルの削減は、医療画像分類のディープラーニングアンサンブルにおける性能と効率を向上させるか?
  • RQ310クロップデータ増幅は、DRおよびDME採点における汎化性能と精度の向上にどの程度効果的か?
  • RQ42段階の分類器アーキテクチャは、臨床的に重要な重度非増殖性NPDRとPDRの区別を改善できるか?
  • RQ51対すべて戦略を用いることで、DME採点におけるクラスの不均衡はどの程度軽減されるか?

主な発見

  • アンサンブルモデルは、DR採点でテストデータで83.9%の精度(n=56)を達成し、最良の単一モデルに比べ1%の向上を示した。
  • モデルの削減により、アンサンブル内のすべてのモデルを使用した場合に比べ、精度が1.78%向上した。これは、選択的モデル選択が性能向上に寄与することを示している。
  • 10クロップ推論により、テストセットでの精度が85.7%に上昇した。逆に、これを削除すると性能が6.82%低下した。これは、ロバスト性に与える重要性を示している。
  • エキスパート分類器により、DR採点の全体的な精度が14ポイント向上し、単一の5クラスモデルの65%から、アンサンブルでの79%に上昇した。
  • DME採点では、テストデータで95.45%の精度(n=44)を達成した。また、全訓練セット(n=502)では96.85%の精度を示した。
  • 混同行列から、特にDMEにおいて高い特異性と感度が確認され、テストセットでは19/19のGrade 2症例が正しく分類された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。