QUICK REVIEW

[论文解读] Self-Supervised Learning for Knee Osteoarthritis: Diagnostic Limitations and Prognostic Value of Uncurated Hospital Data

Haresh Rengaraj Rajamohan, Yuxuan Chen|arXiv (Cornell University)|Mar 26, 2026

Osteoarthritis Treatment and Mechanisms被引用 0

一句话总结

研究发现对膝关节X线影像进行仅图像的自监督学习在微调后相对于 ImageNet 的诊断增益有限，而来自医院数据的多模态图像-文本预训练则提升预后但不提升 KL 分级；外部验证显示在预后方面有增益。

ABSTRACT

This study assesses whether self-supervised learning (SSL) improves knee osteoarthritis (OA) modeling for diagnosis and prognosis relative to ImageNet-pretrained initialization. We compared (i) image-only SSL pretrained on knee radiographs from the OAI, MOST, and NYU cohorts, and (ii) multimodal image-text SSL pretrained on uncurated hospital knee radiographs paired with radiologist impressions. For diagnostic Kellgren-Lawrence (KL) grade prediction, SSL offered mixed results. While image-only SSL improved accuracy during linear probing (frozen encoder), it did not outperform ImageNet pretraining during full fine-tuning. Similarly, multimodal SSL failed to improve grading performance. We attribute this to severe bias in the uncurated hospital pretraining corpus (93% estimated KL grade 3), which limited alignment with the balanced diagnostic task. In contrast, this same multimodal initialization significantly improved prognostic modeling. It outperformed ImageNet baselines in predicting 4-year structural incidence and progression, including on external validation (MOST AUROC: 0.701 vs. 0.599 at 10% labeled data). Overall, while uncurated hospital image-text data may be ineffective for learning diagnosis due to severity bias, it provides a strong signal for prognostic modeling when the downstream task aligns with pretraining data distribution

研究动机与目标

评估自监督学习（SSL）是否相对于 ImageNet 预训练在膝OA诊断（KL 分级）和预后方面有所提升。
比较在 OAI、MOST、NYU 多个队列的仅图像 SSL 预训练与使用医院影像与放射科医嘱的多模态图像-文本 SSL 预训练。
识别影响 SSL 在诊断与预后方面有效性的数据分布与任务对齐因素。
通过外部验证与跨医学影像领域的控制实验评估鲁棒性。

提出的方法

在 OAI、MOST、NYU 的膝部X线影像上预训练仅图像的 SSL 模型（MoCo、Barlow Twins、ViCReg、CNN-JEPA）。
在 NYU 医院的膝部 X 光影像与放射科医嘱成对数据上预训练多模态 SSL 模型（ConVIRT、GLORIA）。
在 OAI/MOST 上评估下游任务：KL 分级诊断与4年预后（结构性发病率与进展）。
在不同标注数据比例（1%、5%、10% 等）下比较线性探针（冻结编码器）与全微调（FT）。
在胸部 X 线领域进行对照实验以验证 SSL 实现并分析领域效应。

实验结果

研究问题

RQ1仅图像 SSL 在域内膝部X线影像上是否在微调后优于 ImageNet 转移用于 KL 分级诊断？
RQ2使用医院影像与医嘱的多模态 SSL 是否比 ImageNet 或单纯图像 SSL 提升 KL 分级？
RQ3多模态预训练是否在4年结构性发病/进展的预后方面提供优势并具外部验证？
RQ4有哪些数据分布与任务对齐因素限制了诊断中的 SSL 效益而对预后却无此限制？
RQ5胸部 X 光的对照实验是否支持跨医学影像领域中 SSL 表现的普适模式？

主要发现

仅图像的 SSL 提升线性探针准确度，但在针对 KL 分级诊断的全微调下并未优于 ImageNet。
使用医院影像-文本数据的多模态 SSL 未在 KL 分级诊断上优于 ImageNet。
预后任务受益于多模态 SSL，在标注数据比例下以及在外部 MOST 验证中相对于 ImageNet 与仅图像 SSL 呈显著增益（AUROC 在 10% 标注数据时为 0.701 对 0.599）。
对照实验显示仅图像 SSL 在膝部 X 线影像上表现欠佳但当使用报告时多模态 SSL 能提升胸部 X 线分类（ConVIRT 相对 ImageNet）。
医院影像-文本预训练有助于预后，但由于队列选择和放射科印象中缺乏显式的 KL 分级信号，在诊断分级方面增益受限。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。