Skip to main content
QUICK REVIEW

[论文解读] Ensemble of Convolutional Neural Networks for Automatic Grading of Diabetic Retinopathy and Macular Edema

Avinash Kori, Sai Saketh Chennamsetty|arXiv (Cornell University)|Sep 12, 2018
Retinal Imaging and Analysis参考文献 5被引用 34
一句话总结

该论文提出了一种基于迁移学习的卷积神经网络(CNN)集成模型,用于自动评估眼底图像中的糖尿病性视网膜病变(DR)和黄斑水肿(DME)。通过结合多个预训练的ResNet和DenseNet模型,应用模型剪枝、十裁剪增强和最大投票推理策略,该方法在DR分级上达到83.9%的准确率(n=56),在DME分级上达到95.45%的准确率(n=44),相较于单模型展现出更高的鲁棒性和性能。

ABSTRACT

In this manuscript, we automate the procedure of grading of diabetic retinopathy and macular edema from fundus images using an ensemble of convolutional neural networks. The availability of limited amount of labeled data to perform supervised learning was circumvented by using transfer learning approach. The models in the ensemble were pre-trained on a large dataset comprising natural images and were later fine-tuned with the limited data for the task of choice. For an image, the ensemble of classifiers generate multiple predictions, and a max-voting based approach was utilized to attain the final grade of the anomaly in the image. For the task of grading DR, on the test data (n=56), the ensemble achieved an accuracy of 83.9\%, while for the task for grading macular edema the network achieved an accuracy of 95.45% (n=44).

研究动机与目标

  • 通过深度学习实现眼底图像中糖尿病性视网膜病变(DR)和黄斑水肿(DME)的临床分级自动化。
  • 通过利用ImageNet预训练模型的迁移学习,解决有限标注医学影像数据的挑战。
  • 通过集成学习结合多种CNN架构,提升分类准确率和鲁棒性。
  • 通过两阶段分类器设置缓解数据不平衡问题,并提升对罕见DR严重程度类别的性能。
  • 评估数据增强(十裁剪推理)、模型剪枝和集成投票对最终分级性能的影响。

提出的方法

  • 采用8个预训练CNN模型(ResNet和DenseNet变体)的集成,对有限的DR和DME眼底图像数据进行微调。
  • 通过使用ImageNet预训练权重初始化模型,并在医学数据集上进行微调,应用迁移学习。
  • 图像预处理包括调整大小至224×224,强度归一化,以及使用ImageNet统计量进行z分数归一化。
  • 对于DR分级,采用两阶段分类器:第一阶段为包含4个类别的集成模型(正常、轻度、中度、严重-PDR),第二阶段为专家集成模型,用于区分严重非增殖性DR(NPDR)与PDR。
  • 对于DME分级,采用一对多(OVR)策略以应对类别不平衡问题,每个类别单独训练一个集成模型。
  • 最终预测通过集成中所有模型的最大投票得出,并针对DME应用基于模型输出的决策规则。

实验结果

研究问题

  • RQ1在标注数据有限的情况下,迁移学习的CNN集成模型是否能优于单模型在自动DR分级中的表现?
  • RQ2在医学图像分类的深度学习集成中,模型剪枝是否能提升性能和效率?
  • RQ3十裁剪数据增强在提升DR和DME分级的泛化能力和准确率方面有多有效?
  • RQ4两阶段分类器架构是否能有效提升对严重NPDR与PDR的区分能力,这两者在临床上具有重要意义?
  • RQ5采用一对多策略在多大程度上缓解了DME分级中的类别不平衡问题?

主要发现

  • 集成模型在DR分级测试集上达到83.9%的准确率(n=56),相较于最佳单模型提升了1个百分点。
  • 与使用集成中所有模型相比,模型剪枝使准确率提升了1.78%,表明选择性模型筛选可增强性能。
  • 十裁剪推理使测试集准确率提升至85.7%,而移除该策略后性能下降6.82%,凸显其对鲁棒性的关键作用。
  • 专家分类器使整体DR分级准确率提升14个百分点,从单个五分类模型的65%提升至79%(在集成中使用时)。
  • 在DME分级中,集成模型在测试集上达到95.45%的准确率(n=44),在完整训练集上达到96.85%的准确率(n=502)。
  • 混淆矩阵显示高特异性和高敏感性,尤其在DME方面,测试集中19/19例2级病例被正确分类。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。