QUICK REVIEW

[論文レビュー] AIROGS: Artificial Intelligence for RObust Glaucoma Screening Challenge

Coen de Vente, Koenraad A. Vermeer|arXiv (Cornell University)|Feb 3, 2023

Retinal Imaging and Analysis被引用数 19

ひとこと要約

AIROGSチャレンジはカラー眼底写真（CFP）から緑内障スクリーニングのための堅牢なAI手法を開発し、不可判読入力の検出と大規模で多様なデータセットにまたがる現実世界での頑健性を重視します。上位チームは専門家臨床医と同等の性能を達成し、外部データセットへの強力な一般化を実証しました。

ABSTRACT

The early detection of glaucoma is essential in preventing visual impairment. Artificial intelligence (AI) can be used to analyze color fundus photographs (CFPs) in a cost-effective manner, making glaucoma screening more accessible. While AI models for glaucoma screening from CFPs have shown promising results in laboratory settings, their performance decreases significantly in real-world scenarios due to the presence of out-of-distribution and low-quality images. To address this issue, we propose the Artificial Intelligence for Robust Glaucoma Screening (AIROGS) challenge. This challenge includes a large dataset of around 113,000 images from about 60,000 patients and 500 different screening centers, and encourages the development of algorithms that are robust to ungradable and unexpected input data. We evaluated solutions from 14 teams in this paper, and found that the best teams performed similarly to a set of 20 expert ophthalmologists and optometrists. The highest-scoring team achieved an area under the receiver operating characteristic curve of 0.99 (95% CI: 0.98-0.99) for detecting ungradable images on-the-fly. Additionally, many of the algorithms showed robust performance when tested on three other publicly available datasets. These results demonstrate the feasibility of robust AI-enabled glaucoma screening.

研究の動機と目的

現実世界の不可判読条件におけるCFPを用いた堅牢なAI搭載緑内障スクリーニングの実現性を評価する。
不可判読および予期せぬ入力への頑健性を促進する大規模で多様なデータセットとチャレンジフレームワークを作成する。
提出アルゴリズムをスクリーニング性能と入力不可判読性の信頼性について評価し、外部検証を行う。
AIソリューションを人間の専門家と比較し、コンテナ化された提出と公的データセットによる再現性を確立する。

提案手法

約60,071名の被験者にわたる約500拠点の、112,732のCFPを含む大規模で多様な訓練/テストデータセットを提供し、ラベルはRG、NRG、またはUngradableとする。
参加者にはコンテナ化されたアルゴリズムの提出を要求（Type 2チャレンジ）、再現性を保証し私設テストデータでクラウドベース評価を可能にする。
2つのスクリーニング指標（高特異度でのRGに対するpAUC_S、SE@95SP_S）と2つの頑健性指標（人間との不可判読同意を表すkappa_U、不可判読スコアの相関を表すAUC_U）で解法を評価する。
訓練済みアルゴリズムを3つの公開データセット（REFUGE、GAMMA、DRIMDB）に適用して一般化と頑健性を評価する外部検証を許可する。
不可判読データの学習なしに、オンザフライで不可判読画像を検出する手法を奨励する。

実験結果

リサーチクエスチョン

RQ1現実世界のフィルタリングされていないテストセットで、AIモデルはCFPから高い特異度と感度をもって referable glaucomaを検出できるか。
RQ2AIシステムは、分布外データの存在下で信頼性のある不可判読画像の識別と頑健な不確実性指標を提供できるか。
RQ3AIソリューションは、訓練ドメインを超えた外部の緑内障データセットへよく一般化するか。
RQ4堅牢なアーキテクチャと入力品質認識を用いて、専門の眼科医と同等の性能を達成することは現実的か。

主な発見

最良のチームは、緑内障スクリーニングタスクで20名の専門眼科医/視能訓練士と同程度の性能を達成した。
トップアプローチは、不可判読画像をオンザフライで検出するためのAUCが0.99（95% CI: 0.98–0.99）に達した。
4つのチャレンジ段階で30チームが参加し、最終論文には14チームが手法を提供した。
アルゴリズムは、外部データセット3つ（REFUGE、GAMMA、DRIMDB）で評価され、頑健な性能を示した。
このデータセットは、これまでで最大の公的CFP眼底検査ラベル付きデータセットで、60k名の患者を500拠点に跨り、多様なカメラ機種を含む。
チャレンジ設計（Type 2提出と未フィルタのテストセット）は、再現性と現実世界での関連性を高める。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。