Skip to main content
QUICK REVIEW

[论文解读] Effective Data Augmentation With Diffusion Models

Brandon Trabucco, Kyle G. Doherty|arXiv (Cornell University)|Feb 7, 2023
Domain Adaptation and Few-Shot Learning被引用 81
一句话总结

本文介绍 DA-Fusion,一种基于扩散模型的数据增强方法,通过对真实图像进行语义编辑以创建多样化、与任务相关的合成数据,用于少样本分类,同时解决来自预训练模型的泄露问题。

ABSTRACT

Data augmentation is one of the most prevalent tools in deep learning, underpinning many recent advances, including those from classification, generative models, and representation learning. The standard approach to data augmentation combines simple transformations like rotations and flips to generate new images from existing ones. However, these new images lack diversity along key semantic axes present in the data. Current augmentations cannot alter the high-level semantic attributes, such as animal species present in a scene, to enhance the diversity of data. We address the lack of diversity in data augmentation with image-to-image transformations parameterized by pre-trained text-to-image diffusion models. Our method edits images to change their semantics using an off-the-shelf diffusion model, and generalizes to novel visual concepts from a few labelled examples. We evaluate our approach on few-shot image classification tasks, and on a real-world weed recognition task, and observe an improvement in accuracy in tested domains.

研究动机与目标

  • 动机:标准的数据增强缺乏语义多样性,且无法改变高层属性。
  • 目标:开发一种灵活、现成的基于扩散的增强方法,适用于任何图像并提升少样本分类性能。
  • 旨在在真实数据和合成数据之间取得平衡,并在最少的领域特定调优下推广到尚未见过的概念。

提出的方法

  • 使用文本到图像的扩散模型,通过插入到模型文本编码器中的新嵌入来对图像进行语义编辑。
  • 通过对少量带标签样本使用 Textual Inversion 学习新的嵌入,将扩散模型适应到尚未见过的概念。
  • 将真实图像拼接进扩散过程(SDEdit)以生成受所学嵌入引导的合成图像。
  • 在训练批次中使用一个概率参数混合真实和合成数据,以在真实图像与增强图像之间取得平衡。
  • 通过在图像拼接过程中变化插入时间步 t0 来引入随机化的增强强度,以增加多样性。
  • 实施泄露防护策略:模型为中心(从模型权重中擦除类别概念)和数据为中心(从提示中省略类别名称)。

实验结果

研究问题

  • RQ1基于扩散的、语义编辑的增强是否能在概念超出扩散模型词汇表的数据集上提升少样本分类?
  • RQ2泄露防护策略如何影响基于扩散的数据增强的有效性?
  • RQ3增强强度的随机性是否有助于性能提升?该方法对真实与合成数据的平衡有多鲁棒?
  • RQ4该方法在多领域(Pascal VOC、COCO、leafy spurge weed dataset)是否有效?

主要发现

  • DA-Fusion 在三个数据集上提升了少样本分类准确率,相对于标准增强基线,增益多达大约 10 个百分点。
  • 模型为中心的泄露防护仍有收益,在 Pascal 和 COCO 领域实现高达 +5 个百分点。
  • 数据为中心的泄露防护带来更大增益,约 +10 个百分点,表明对模型先验的依赖或交互。
  • 随机化增强强度(变化 t0)在性能上持续优于固定强度。
  • DA-Fusion 对真实与合成数据的平衡(alpha 和 M)表现鲁棒,敏感度适中。
  • 一个贡献的 weed 数据集(leafy spurge)展示了 DA-Fusion 应对扩散模型词汇表之外的未见概念的能力。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。