Skip to main content
QUICK REVIEW

[論文レビュー] VisionFM: a Multi-Modal Multi-Task Vision Foundation Model for Generalist Ophthalmic Artificial Intelligence

Jianing Qiu, Jian Wu|arXiv (Cornell University)|Oct 8, 2023
Retinal Imaging and Analysis被引用数 14
ひとこと要約

VisionFM は、3.4M の画像でトレーニングされた多モーダル、多タスクの眼科ファウンデーションモデルで、様々なモダリティとデバイスに跨る一般診断、セグメンテーション、予後、全身バイオマーカ予測を可能にし、ベースラインを上回り、一部のタスクで初級から中級の臨床医に匹敵、あるいはそれを凌ぐ。

ABSTRACT

We present VisionFM, a foundation model pre-trained with 3.4 million ophthalmic images from 560,457 individuals, covering a broad range of ophthalmic diseases, modalities, imaging devices, and demography. After pre-training, VisionFM provides a foundation to foster multiple ophthalmic artificial intelligence (AI) applications, such as disease screening and diagnosis, disease prognosis, subclassification of disease phenotype, and systemic biomarker and disease prediction, with each application enhanced with expert-level intelligence and accuracy. The generalist intelligence of VisionFM outperformed ophthalmologists with basic and intermediate levels in jointly diagnosing 12 common ophthalmic diseases. Evaluated on a new large-scale ophthalmic disease diagnosis benchmark database, as well as a new large-scale segmentation and detection benchmark database, VisionFM outperformed strong baseline deep neural networks. The ophthalmic image representations learned by VisionFM exhibited noteworthy explainability, and demonstrated strong generalizability to new ophthalmic modalities, disease spectrum, and imaging devices. As a foundation model, VisionFM has a large capacity to learn from diverse ophthalmic imaging data and disparate datasets. To be commensurate with this capacity, in addition to the real data used for pre-training, we also generated and leveraged synthetic ophthalmic imaging data. Experimental results revealed that synthetic data that passed visual Turing tests, can also enhance the representation learning capability of VisionFM, leading to substantial performance gains on downstream ophthalmic AI tasks. Beyond the ophthalmic AI applications developed, validated, and demonstrated in this work, substantial further applications can be achieved in an efficient and cost-effective manner using VisionFM as the foundation.

研究の動機と目的

  • 複数の疾患、モダリティ、タスクを扱える単一疾患・単一モダリティ系システムを超えた一般的な眼科AIモデルの必要性を動機づける。
  • 多様な眼科データで訓練されたファウンデーションモデル VisionFM を開発し、診断、予後、セグメンテーション、および全身バイオマーカー予測を可能にする。
  • 未見のモダリティ、デバイス、そして過小評価される疾患に対する VisionFM の一般化を実証し、学習における合成データの役割を探る。
  • モダリティに依存しないデコーダーが、眼科領域全体で効率的かつスケーラブルなダウンストリームタスク解決を可能にすることを示す。

提案手法

  • VisionFM を、8 種類の画像モダリティと多様なデバイスで、560,457人のデータから 340 万枚の眼科画像を用いて事前学習する。
  • モダリティに依存しないデコーダーを用いて、多モーダル入力から診断、予後、セグメンテーション、ランドマーク検出、全身バイオマーカー予測など複数のタスクを実行する。
  • 自己教師付き学習と合成眼科データを組み込み、表現学習とダウンストリーム性能を向上させる。
  • 5 モダリティ、8 疾患にまたがる公開・非公開データを統合した大規模ベンチマーク(23 公開データセット、5 私的データセット)で評価する。
  • VisionFM 上に線形プロービングを用いた新しい疾患とモダリティへの少数ショット適応(1-shot、5-shot、10-shot)を検討する。
  • モデルの説明性と解釈性を提供するため、注意マップと事前学習の進化を可視化する。

実験結果

リサーチクエスチョン

  • RQ1VisionFM は、複数の眼科疾患と画像モダリティを跨いで高精度のモダリティ無依存な病気診断を達成できるか。
  • RQ2VisionFM は事前学習中に見られなかった新しいモダリティや新しい画像デバイスへどれだけ一般化できるか。
  • RQ3合成データは VisionFM の表現学習とダウンストリーム性能にどのような影響を与えるか。
  • RQ4VisionFM は眼科画像からのセグメンテーション、ランドマーク検出、予後、および全身バイオマーカー予測を同時にサポートできるか。
  • RQ5未評価の疾患や新しいタスクへの少数ショット適応において VisionFM はどの程度性能を示すか。

主な発見

  • VisionFM は、5 つのモダリティでの大規模ベンチマークにおいて、8 疾患で平均 AUC が 0.993 を達成した。
  • VisionFM のモダリティ無依存デコーダーは ResNet ベースラインを上回り、12 疾患診断タスクで 1–3 年・4–8 年の臨床医に対して優位に迫った/凌いだ。
  • OCTA(新モダリティ)での DR 等級付けは、事前学習時に OCTA 経験がなくても AUC が 0.935 を達成。
  • VisionFM は ultra-wide-field fundus デバイスへの強い一般化を示し、DR 等級付けで AUC 0.779、また未経験の少数ショット設定で眼部白皮症の認識に適用可能。
  • セグメンテーション性能:血管 Dice 81.75%、OCT 層 Dice 96.18%;眼窩 MRI 腫瘍セグメンテーション Dice 79.49%(U-Net は 41.69%)。UBM ランドマーク検出のユークリッド誤差は 4.90 ピクセル(U-Net は 12.86)。
  • 合成データ(適切な実データ:合成比)は表現を向上させ; slit-lamp MRI 合成データは実データ:合成 1:5 で最適効果を達成。
  • VisionFM は fundus 画像から頭蓋内腫瘍の存在を予測し AUC 0.982、AP 0.990 を達成、臨床医を上回る。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。