[论文解读] Detecting Severity of Diabetic Retinopathy from Fundus Images: A Transformer Network-based Review
本论文将四种图像变换模型(ViT、BEiT、CaiT、DeiT)进行集成,以从眼底图像自动评分糖尿病视网膜病变的严重程度,在APTOS-2019上达到最先进的准确率。
Diabetic Retinopathy (DR) is considered one of the significant concerns worldwide, primarily due to its impact on causing vision loss among most people with diabetes. The severity of DR is typically comprehended manually by ophthalmologists from fundus photography-based retina images. This paper deals with an automated understanding of the severity stages of DR. In the literature, researchers have focused on this automation using traditional machine learning-based algorithms and convolutional architectures. However, the past works hardly focused on essential parts of the retinal image to improve the model performance. In this study, we adopt and fine-tune transformer-based learning models to capture the crucial features of retinal images for a more nuanced understanding of DR severity. Additionally, we explore the effectiveness of image transformers to infer the degree of DR severity from fundus photographs. For experiments, we utilized the publicly available APTOS-2019 blindness detection dataset, where the performances of the transformer-based models were quite encouraging.
研究动机与目标
- 推动基于眼底照片的自动 DR 严重程度分级,以减少人工分级中的不一致性。
- 探索基于变换器的架构,以捕捉对 DR 分期重要的视网膜特征。
- 开发多种图像变换模型的集成,以提升 DR 严重程度任务的预测性能。
提出的方法
- 使用重新调整大小、数据增强和 CLAHE 对眼底图像进行预处理,以标准化输入。
- 改编并训练四种图像变换模型(ViT、BEiT、CaiT、DeiT)用于 DR 严重程度分类。
- 使用加权平均和多数投票对四个变换模型进行集成,以产出最终预测。
- 在 APTOS-2019 数据集上评估性能,指标包括 accuracy、kappa、precision、recall、F1、specificity 和 balanced accuracy。
- 进行消融和超参数分析,以评估各个变换模型及 MSA heads 的贡献。

实验结果
研究问题
- RQ1基于变换器的模型是否能够从眼底图像有效学习 DR 严重程度特征?
- RQ2对 DR 严重程度分级,对多种图像变换模型进行集成是否比单一模型具有更高的性能?
- RQ3预处理和超参数对变换器在 DR 严重程度分类中的影响是什么?
主要发现
| 集成变换模型 | 加权平均准确率 (%) | 多数投票准确率 (%) |
|---|---|---|
| ViT | 82.21 | |
| DeiT | 85.65 | |
| BEiT | 86.74 | |
| CaiT | 86.91 | |
| ViT + DeiT | 87.03 | 86.55 |
| ViT + BEiT | 87.48 | 87.03 |
| ViT + CaiT | 87.77 | 87.21 |
| DeiT + BEiT | 88.18 | 87.69 |
| DeiT + CaiT | 88.86 | 87.93 |
| BEiT + CaiT | 89.28 | 88.12 |
| ViT + DeiT + BEiT | 90.53 | 88.87 |
| ViT + DeiT + CaiT | 91.39 | 89.56 |
| ViT + BEiT + CaiT | 92.14 | 90.28 |
| DeiT + BEiT + CaiT | 93.46 | 90.91 |
| ViT + DeiT + BEiT + CaiT | 94.63 | 91.26 |
- 集成图像变换模型(EiT)在 APTOS-2019 测试集上以加权平均达到 94.63% 的准确率,使用多数投票达到 91.26%。
- 带有加权平均的 EiT 达到 Cohen's kappa 0.92 和平衡准确率 95.75%(在所有配置中报告的最高)。
- 在进行集成之前,单一 CaiT 变换模型在单模型中表现最好;集成方法超越了各个单独模型。
- 在各个严重程度类别中,EiT 对负性 DR(类别 0)具有高精度和召回率,对其他阶段的表现各异,但总体特异性较高。
- 超参数分析显示将 MSA heads 增加到 6 时性能提升,在加权平均集成中对 α 权重的调优达到峰值准确率 94.63%。
- 与传统的 CNN 基于架构和其他变换模型相比,EiT 在准确率、平衡准确率、灵敏度和特异性方面均具优势。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。