[论文解读] Few-shot Image Generation with Elastic Weight Consolidation
本文提出了一种少样本图像生成方法,通过弹性权重保留(EWC)将预训练生成模型适应到新的目标域,在仅使用少量目标样本的情况下保留源域多样性。通过基于Fisher信息的参数更新正则化,该方法即使在≤10个目标样本下也能生成高质量、多样化的图像,在跨域迁移任务中表现优于先前方法,尤其在艺术风格和低数据设置下优势显著。
Few-shot image generation seeks to generate more data of a given domain, with only few available training examples. As it is unreasonable to expect to fully infer the distribution from just a few observations (e.g., emojis), we seek to leverage a large, related source domain as pretraining (e.g., human faces). Thus, we wish to preserve the diversity of the source domain, while adapting to the appearance of the target. We adapt a pretrained model, without introducing any additional parameters, to the few examples of the target domain. Crucially, we regularize the changes of the weights during this adaptation, in order to best preserve the information of the source dataset, while fitting the target. We demonstrate the effectiveness of our algorithm by generating high-quality results of different target domains, including those with extremely few examples (e.g., <10). We also analyze the performance of our method with respect to some important factors, such as the number of examples and the dissimilarity between the source and target domain.
研究动机与目标
- 在仅提供少量目标域样本的低数据场景下实现高质量图像生成。
- 在不增加参数的前提下,将预训练生成模型适应到新的目标域,同时保留源域的多样性。
- 通过基于参数重要性的选择性正则化来缓解少样本生成中的过拟合问题。
- 在包括艺术风格和高度不相似的源-目标对在内的多种领域上评估该方法。
- 分析目标样本数量和领域差异对生成质量的影响。
提出的方法
- 通过使用EWC微调权重,将预训练GAN(例如StyleGAN)适应到新的目标域,且不引入新参数。
- 使用冻结的判别器估计Fisher信息,作为参数重要性的代理,实现在适应过程中对关键权重的正则化。
- 应用EWC正则化以限制高重要性参数的更新,从而保留源域的多样性。
- 在源模型和适配模型之间使用相同的潜在代码,以确保姿态、发型等属性层面的一致性。
- 仅使用少量目标图像训练适配模型,目标是生成与目标域外观匹配的多样化、逼真的样本。
- 利用源模型与适配模型之间的对应关系,为下游任务生成合成的成对数据。
实验结果
研究问题
- RQ1基于EWC的权重正则化是否能有效在仅使用少量样本的情况下适应新目标域的同时保留源域多样性?
- RQ2目标样本数量如何影响生成图像的质量和多样性?
- RQ3源域与目标域之间的领域差异如何影响该适应方法的性能?
- RQ4当从语义上截然不同的源域(例如人脸到风景画)进行迁移时,适配模型在多大程度上能生成语义上合理的图像?
- RQ5是否可以利用源模型与适配模型生成结果之间的对应关系,在无需真实标注的情况下合成成对数据?
主要发现
- 该方法即使在仅使用10个目标样本的情况下,也能在多个目标域(包括艺术风格域)上生成高质量、多样化的图像。
- 在使用相同潜在代码生成时,模型能保留源域的关键属性(如姿态、发型、面部表情),表明具有结构一致性。
- 在CelebA-Female人脸域(最接近FFHQ源域)上,生成的图像最为逼真且多样化,表明迁移性能强劲。
- 当从人脸域适配到彩色铅笔风景画域时,模型未能改变语义结构(例如人脸轮廓依然存在),显示出在高度不相似领域中的局限性。
- 使用通用CNN检测器在Cat和CelebA-Female数据集上检测生成图像的平均精确率分别达到94.9%和99.6%,表明其可检测性与其它GAN方法相当。
- 消融实验表明,与无正则化的基线微调相比,EWC正则化显著提升了生成质量和多样性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。