[论文解读] VisionFM: a Multi-Modal Multi-Task Vision Foundation Model for Generalist Ophthalmic Artificial Intelligence
VisionFM 是一个多模态、多任务的眼科基础模型,基于 3.4M 图像训练,能够在不同模态和设备上实现通用诊断、分割、预后和全身生物标志物预测,在多个任务中优于基线并与初级至中级临床医生相比具竞争力/超过。
We present VisionFM, a foundation model pre-trained with 3.4 million ophthalmic images from 560,457 individuals, covering a broad range of ophthalmic diseases, modalities, imaging devices, and demography. After pre-training, VisionFM provides a foundation to foster multiple ophthalmic artificial intelligence (AI) applications, such as disease screening and diagnosis, disease prognosis, subclassification of disease phenotype, and systemic biomarker and disease prediction, with each application enhanced with expert-level intelligence and accuracy. The generalist intelligence of VisionFM outperformed ophthalmologists with basic and intermediate levels in jointly diagnosing 12 common ophthalmic diseases. Evaluated on a new large-scale ophthalmic disease diagnosis benchmark database, as well as a new large-scale segmentation and detection benchmark database, VisionFM outperformed strong baseline deep neural networks. The ophthalmic image representations learned by VisionFM exhibited noteworthy explainability, and demonstrated strong generalizability to new ophthalmic modalities, disease spectrum, and imaging devices. As a foundation model, VisionFM has a large capacity to learn from diverse ophthalmic imaging data and disparate datasets. To be commensurate with this capacity, in addition to the real data used for pre-training, we also generated and leveraged synthetic ophthalmic imaging data. Experimental results revealed that synthetic data that passed visual Turing tests, can also enhance the representation learning capability of VisionFM, leading to substantial performance gains on downstream ophthalmic AI tasks. Beyond the ophthalmic AI applications developed, validated, and demonstrated in this work, substantial further applications can be achieved in an efficient and cost-effective manner using VisionFM as the foundation.
研究动机与目标
- 激发需要一个通用型眼科 AI 模型,以处理多种疾病、模态和任务,超越单病种、单模态系统的局限。
- 将 VisionFM 发展为在多样化眼科数据上训练的基础模型,以实现诊断、预后、分割和全身生物标志物预测。
- 展示 VisionFM 对未见模态、设备和代表性不足疾病的泛化能力,并探索合成数据在学习中的作用。
- 展示无模态偏好的解码器如何实现跨眼科的高效、可扩展的下游任务解决方案。
提出的方法
- 在 560,457 名个体、来自八种成像模态和多样化设备的 3.4M 张眼科图像上预训练 VisionFM。
- 使用无模态偏好的解码器,从多模态输入执行多项任务(诊断、预后、分割、地标检测、全身生物标志物预测) 。
- 结合自监督学习和合成眼科数据,以提升表征学习和下游性能。
- 在一个大型合并基准上评估,涵盖23个公开数据集和5个私有数据集,跨越五种模态和八种疾病。
- 通过在 VisionFM 顶层进行线性探测,考察对新疾病和新模态的少-shot 自适应(1-shot、5-shot、10-shot)。
- 可视化注意力图和预训练演化,以提供模型可解释性和可解读性。
实验结果
研究问题
- RQ1VisionFM 是否能够在多种眼科疾病和成像模态中实现高精度、模态无关的疾病诊断?
- RQ2VisionFM 对在预训练期间未见的新模态和新成像设备的泛化能力有多强?
- RQ3合成数据对 VisionFM 的表征学习和下游性能有何影响?
- RQ4VisionFM 是否能够从眼科影像中联合支持分割、地标检测、预后和全身生物标志物预测?
- RQ5VisionFM 在对代表性不足的疾病和新任务的少-shot 适应方面表现如何?
主要发现
- VisionFM 在一个大规模基准上,在五种模态的情况下,对八种疾病的平均 AUC 达到 0.993。
- VisionFM 的无模态偏好解码器超越了 ResNet 基线,并在 12 种疾病诊断中,与具备 1–3 年以及 4–8 年经验的眼科医生相媲美甚至超越。
- DR 分级(在 OCTA 这一新模态上)在预训练未包含 OCTA 的情况下仍达到 AUC 0.935。
- VisionFM 展现出对超广视场眼底设备的强泛化能力(DR 分级),AUC 0.779,且在少-shot 设置(1–10-shot)下对眼部白化病的识别具备能力。
- 分割性能:血管 Dice 81.75%,OCT 层 Dice 96.18%;眼眶 MRI 肿瘤分割 Dice 79.49%(对比 U‑Net 41.69%);UBM 地标检测欧氏误差 4.90 像素(对比 U‑Net 的 12.86)。
- 合成数据(真实:合成比例)提升了表示;裂隙灯 MRI 合成数据在真实:合成 1:5 时达到最佳增益。
- VisionFM 能够从眼底图像预测颅内肿瘤的存在,AUC 0.982,AP 0.990,优于临床医生。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。