[论文解读] Sharing Generative Models Instead of Private Data: A Simulation Study on Mammography Patch Classification
本研究提出共享训练好的生成对抗网络(GANs)而非真实患者数据,以提升乳腺X线片切片分类中的模型泛化能力。通过将来自两个外部中心的 GANs 转移到第三个中心,该方法显著提升了卷积神经网络(CNN)和视觉变压器(transformer)分类器的性能,尤其是在低数据场景下,表明 GAN 生成的合成数据可有效增强训练,同时保护隐私。
Early detection of breast cancer in mammography screening via deep-learning based computer-aided detection systems shows promising potential in improving the curability and mortality rates of breast cancer. However, many clinical centres are restricted in the amount and heterogeneity of available data to train such models to (i) achieve promising performance and to (ii) generalise well across acquisition protocols and domains. As sharing data between centres is restricted due to patient privacy concerns, we propose a potential solution: sharing trained generative models between centres as substitute for real patient data. In this work, we use three well known mammography datasets to simulate three different centres, where one centre receives the trained generator of Generative Adversarial Networks (GANs) from the two remaining centres in order to augment the size and heterogeneity of its training dataset. We evaluate the utility of this approach on mammography patch classification on the test set of the GAN-receiving centre using two different classification models, (a) a convolutional neural network and (b) a transformer neural network. Our experiments demonstrate that shared GANs notably increase the performance of both transformer and convolutional classification models and highlight this approach as a viable alternative to inter-centre data sharing.
研究动机与目标
- 为解决临床中心在基于深度学习的乳腺癌检测中面临的数据有限且非异构的问题。
- 探究共享训练好的生成模型(GANs)是否可作为跨医疗中心共享真实患者数据的隐私保护替代方案。
- 评估在外部数据集上训练的 GANs 生成的合成切片用于数据增强后,分类模型的性能提升情况。
- 比较在 CNN 和视觉变压器架构上,使用单源与多源合成数据进行 GAN 基础数据增强的有效性差异。
- 评估数据稀缺对模型性能的影响,以及 GAN 生成数据在多大程度上缓解了这一限制。
提出的方法
- 使用三个知名乳腺X线数据集——INbreast、BCDR 和 OPTIMAM,模拟三个临床中心,其中一个中心(A)接收来自另外两个中心(B 和 C)的 GANs。
- 利用中心 B 和 C 的训练 GANs(DCGAN 和 WGAN-GP)生成合成病灶切片,并将其用于增强中心 A 的训练数据。
- 为解决类别不平衡问题,从中心 A 自身的 INbreast 数据集中提取了与合成病灶切片数量相等的健康切片。
- 训练并评估了两种分类模型:卷积神经网络(CNN)和 Swin 变压器,分别使用中心 A 的真实数据以及真实数据与合成数据的组合。
- 性能通过准确率、F1 分数、AUROC 和 AUPRC 进行衡量,结果通过三个随机种子的平均值获得,以确保稳健性。
- 本研究比较了在两种数据模式下的模型性能:完整训练数据(100%)和减少数据(50%),以评估数据稀缺的影响。
实验结果
研究问题
- RQ1共享训练好的 GANs 而非真实患者数据,是否能显著提升乳腺X线片切片分类模型的性能?
- RQ2基于 GAN 的合成数据增强对模型泛化能力有何影响,尤其是在低数据场景下?
- RQ3合成数据带来的性能增益在 CNN 与视觉变压器之间是否存在差异?若存在,原因是什么?
- RQ4结合来自多个来源(如 BCDR 和 OPTIMAM)的合成数据,与仅使用单一来源的数据相比,效果如何?
- RQ5真实数据集之间(如 BCDR 与 INbreast)的领域偏移在多大程度上影响 GAN 生成数据的实用性?
主要发现
- 当在仅 50% 的 INbreast 数据上训练 Swin 变压器时,F1 分数达到 0.734;在加入来自 BCDR 的合成切片及匹配的健康样本后,提升至 0.880,增幅达 0.146。
- GAN 生成数据带来的性能增益在低数据场景(50% 数据)下最为显著,且对参数量更大的 Swin 变压器(2800 万参数)效果更明显,相较于 CNN(110 万参数),表明其对数据效率的需求更高。
- 同时使用 BCDR 和 OPTIMAM 的合成数据并未优于仅使用单一来源的 100% 合成数据,表明尽管多样性更高,但更大的领域偏移可能阻碍学习。
- 出人意料的是,真实 BCDR 切片的性能反而劣于合成 BCDR 切片,可能由于 INbreast 与 BCDR 在图像对比度、强度和病灶形态上的领域偏移所致。
- 当使用来自两个来源的合成数据时,两种模型的 AUROC 和 AUPRC 值均显著提升,Swin 变压器在使用双源合成数据时达到 AUROC 0.995 和 AUPRC 0.994。
- 结果表明,基于 GAN 的数据共享是一种切实可行的、保护隐私的跨中心数据共享替代方案,尤其在数据稀缺限制模型性能时更具优势。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。