[论文解读] Weakly Supervised Segmentation with Multi-scale Adversarial Attention Gates
本文提出了一种弱监督分割模型,利用涂鸦标注和多尺度生成对抗网络(GAN),并引入对抗性注意力门机制,以生成高质量的分割掩码。通过将注意力门条件化于对抗性信号,模型学习到形状先验,在医学和非医学数据集上实现了与全监督模型相当的性能。
Large, fine-grained image segmentation datasets, annotated at pixel-level, are difficult to obtain, particularly in medical imaging, where annotations also require expert knowledge. Weakly-supervised learning can train models by relying on weaker forms of annotation, such as scribbles. Here, we learn to segment using scribble annotations in an adversarial game. With unpaired segmentation masks, we train a multi-scale GAN to generate realistic segmentation masks at multiple resolutions, while we use scribbles to learn the correct position in the image. Central to the model's success is a novel attention gating mechanism, which we condition with adversarial signals to act as a shape prior, resulting in better object localization at multiple scales. We evaluated our model on several medical (ACDC, LVSC, CHAOS) and non-medical (PPSS) datasets, and we report performance levels matching those achieved by models trained with fully annotated segmentation masks. We also demonstrate extensions in a variety of settings: semi-supervised learning; combining multiple scribble sources (a crowdsourcing scenario) and multi-task learning (combining scribble and mask supervision). We will release expert-made scribble annotations for the ACDC dataset, and the code used for the experiments, at this https URL.
研究动机与目标
- 解决获取大规模像素级标注医学图像的挑战,此类标注因需要专家参与而成本高昂且耗时。
- 开发一种仅使用涂鸦级标注而非完整实例掩码的弱监督分割框架。
- 通过将对抗性信号整合到注意力门机制中作为形状先验,提升目标定位和分割精度。
- 在多样化的数据集(包括医学(ACDC、LVSC、CHAOS)和非医学(PPSS)领域)上证明模型的有效性。
- 将框架扩展至半监督、多源涂鸦和多任务学习设置,以增强鲁棒性和泛化能力。
提出的方法
- 训练一个多尺度GAN,在无配对的真实掩码条件下,生成多分辨率的逼真分割掩码。
- 使用涂鸦标注作为条件,引导像素级的目标定位。
- 提出一种新颖的对抗性注意力门,利用判别器的反馈来优化特征图并强化形状一致性。
- 利用对抗性信号引导注意力门,有效作为形状先验,提升跨尺度的定位性能。
- 通过对抗性博弈训练生成器和判别器,其中生成器学习生成逼真掩码,而判别器则区分真实与虚假掩码。
- 将注意力门集成到类似U-Net的架构的跳跃连接中,以在所有尺度上保留空间细节。
实验结果
研究问题
- RQ1仅使用涂鸦标注的弱监督分割模型能否实现与全监督模型相当的性能?
- RQ2所提出的对抗性注意力门在提升目标定位和分割精度方面的有效性如何?
- RQ3多尺度GAN框架是否能提升在多样化图像领域中生成的分割掩码质量?
- RQ4该模型能否泛化至半监督和多源涂鸦学习场景?
- RQ5将涂鸦监督与部分掩码监督结合,对整体分割性能有何影响?
主要发现
- 所提模型在多个医学和非医学数据集(包括ACDC、LVSC、CHAOS和PPSS)上实现了与全监督模型相当的分割性能。
- 对抗性注意力门通过作为形状先验显著提升了目标定位性能,减少了假阳性并增强了边界精度。
- 模型在半监督学习中表现出良好泛化能力,仅需部分训练样本标注为涂鸦。
- 结合多个涂鸦源(如众包标注者)可提升鲁棒性并维持高性能。
- 在多任务学习设置中整合涂鸦与部分掩码监督,进一步提升了分割精度和收敛速度。
- 作者发布了ACDC数据集的专家制作涂鸦标注及代码,支持可复现性与未来研究。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。