[论文解读] GAN Augmentation: Augmenting Training Data using Generative Adversarial Networks
本文显示,基于GAN的合成数据可以提升脑部影像分割性能,尤其在真实带标签数据稀缺时;在CT和MR任务中,Dice相似系数(DSC)提升约1–5个百分点。
One of the biggest issues facing the use of machine learning in medical imaging is the lack of availability of large, labelled datasets. The annotation of medical images is not only expensive and time consuming but also highly dependent on the availability of expert observers. The limited amount of training data can inhibit the performance of supervised machine learning algorithms which often need very large quantities of data on which to train to avoid overfitting. So far, much effort has been directed at extracting as much information as possible from what data is available. Generative Adversarial Networks (GANs) offer a novel way to unlock additional information from a dataset by generating synthetic samples with the appearance of real images. This paper demonstrates the feasibility of introducing GAN derived synthetic data to the training datasets in two brain segmentation tasks, leading to improvements in Dice Similarity Coefficient (DSC) of between 1 and 5 percentage points under different conditions, with the strongest effects seen fewer than ten training image stacks are available.
研究动机与目标
- 鼓励在标注数据昂贵且稀缺的医学影像中进行数据增强。
- 研究GAN生成的合成补丁是否可以增强分割网络的训练数据。
- 评估GAN增强在不同分割结构和数据集上的效果。
- 评估与传统增强的互动并确定收益的数据量阈值。
提出的方法
- 使用渐进式生长GAN(PGGAN)建模图像补丁与分割标签的联合分布。
- 在8万张补丁(真实图像+标签)上训练GAN以学习数据流形。
- 从GAN采样合成补丁,并对8万真实补丁进行扩增以用于分割网络训练。
- 使用三种分割网络(UNet、UResNet、DeepMedic)在CT CSF和MR WMH任务上评估。
- 调整真实数据量和合成数据量,以研究对DSC的影响。
- 将GAN增强与旋转增强以及多种增广组合进行比较。
实验结果
研究问题
- RQ1分割网络架构是否影响GAN增强的收益?
- RQ2GAN增强与旋转增强相比如何?
- RQ3合成数据量如何影响性能?
- RQ4可用真实数据量如何影响GAN增强的收益?
- RQ5GAN增强是否在不同数据集与模态(CT/MR)上具有泛化性?
主要发现
- 在多种情形下,GAN增强带来温和但显著的DSC提升。
- 当真实数据最匮乏时收益最大;在极低数据可用性下MR场景下收益才会略微下降。
- CT结果未观察到合成数据带来降级;MR结果在某些情况下,过多的合成数据可能略微降低性能,存在临界点。
- 将GAN增强与传统增强结合比单独使用任一方法获得更大收益,提示互补效应。
- GAN生成的合成图像与训练集不同但在临床上仍然合理,能够在原始样本之外对方差进行插值。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。