[论文解读] AIROGS: Artificial Intelligence for RObust Glaucoma Screening Challenge
AIROGS 挑战赛开发用于青光眼筛查的鲁棒 AI 方法,基于彩色眼底照片(CFP),强调不可判定输入的检测以及在大规模多样化数据集上的现实世界鲁棒性。前几名团队的表现与专家临床医生相当,并在外部数据集上展示了较强的泛化能力。
The early detection of glaucoma is essential in preventing visual impairment. Artificial intelligence (AI) can be used to analyze color fundus photographs (CFPs) in a cost-effective manner, making glaucoma screening more accessible. While AI models for glaucoma screening from CFPs have shown promising results in laboratory settings, their performance decreases significantly in real-world scenarios due to the presence of out-of-distribution and low-quality images. To address this issue, we propose the Artificial Intelligence for Robust Glaucoma Screening (AIROGS) challenge. This challenge includes a large dataset of around 113,000 images from about 60,000 patients and 500 different screening centers, and encourages the development of algorithms that are robust to ungradable and unexpected input data. We evaluated solutions from 14 teams in this paper, and found that the best teams performed similarly to a set of 20 expert ophthalmologists and optometrists. The highest-scoring team achieved an area under the receiver operating characteristic curve of 0.99 (95% CI: 0.98-0.99) for detecting ungradable images on-the-fly. Additionally, many of the algorithms showed robust performance when tested on three other publicly available datasets. These results demonstrate the feasibility of robust AI-enabled glaucoma screening.
研究动机与目标
- 评估在现实世界中使用 CFP 进行鲁棒 AI 驱动的青光眼筛查,在不可判定条件下的可行性。
- 创建一个规模大、覆盖广的数据集和挑战框架,促进对不可判定和意外输入的鲁棒性。
- 在外部验证的前提下,评估提交的算法在筛查性能和输入不可判定性可靠性方面的表现。
- 将 AI 解决方案与人类专家进行比较,并通过容器化提交和公开数据集来建立可重复性。
提出的方法
- 提供一个规模大、覆盖广的训练/测试数据集(来自约60,071名受试者、约500个站点的112,732张 CFP,标签为 RG、NRG 或 Ungradable。)
- 要求参与者提交容器化算法(Type 2 挑战),以确保可重复性,并允许在私有测试数据上进行云端评估。
- 在两个筛查指标上评估解决方案(在高特异性下 RG 的 pAUC_S;SE@95SP_S)以及两个鲁棒性指标(kappa_U 用于与人类的一致性不可判定性;AUC_U 用于不可判定性分数相关性)。
- 通过将训练好的算法应用于三个公开数据集(REFUGE、GAMMA、DRIMDB)来进行外部验证,以评估泛化性和鲁棒性。
- 鼓励在不使用不可判定数据进行训练的情况下,实时检测不可判定图像的方法。
实验结果
研究问题
- RQ1在现实世界、未筛选的测试集上,AI 模型是否能以高特异性和高灵敏度检测出可转介的青光眼?
- RQ2在分布外数据存在的情况下,AI 系统是否能可靠地识别不可判定图像并提供鲁棒的不确定性度量?
- RQ3AI 解决方案是否能很好地泛化到超出训练域的外部青光眼数据集?
- RQ4是否有可行性通过鲁棒架构和输入质量感知实现与专业眼科医生相当的性能?
主要发现
- 最佳团队在青光眼筛查任务中的表现接近一组20名专家眼科医生/验光师。
- 最优方法在实时检测不可判定图像方面达到 AUC 0.99(95% CI: 0.98–0.99)。
- 共有30支团队参与四个挑战阶段,其中14支团队在最终论文中贡献了方法。
- 算法在三个外部数据集(REFUGE、GAMMA、DRIMDB)上的评估显示出鲁棒性。
- 该数据集是迄今为止最大的公开 CFP 青光眼标签数据集,覆盖60k名患者、500个站点,包含多种相机类型。
- 挑战赛设计(Type 2 提交和未筛选测试集)提升了可重复性和现实世界相关性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。