Skip to main content
QUICK REVIEW

[论文解读] ResizeMix: Mixing Data with Preserved Object Information and True Labels

Jie Qin, Jiemin Fang|arXiv (Cornell University)|Dec 21, 2020
Advanced Neural Network Applications参考文献 54被引用 39
一句话总结

ResizeMix 提议将整个源图像缩放为一个小补丁后粘贴到目标图像的随机区域,在不增加额外计算量的情况下保留对象信息和真标签,在分类任务中优于 CutMix 和显着性引导的增强方法,并提升对象检测的泛化能力。

ABSTRACT

Data augmentation is a powerful technique to increase the diversity of data, which can effectively improve the generalization ability of neural networks in image recognition tasks. Recent data mixing based augmentation strategies have achieved great success. Especially, CutMix uses a simple but effective method to improve the classifiers by randomly cropping a patch from one image and pasting it on another image. To further promote the performance of CutMix, a series of works explore to use the saliency information of the image to guide the mixing. We systematically study the importance of the saliency information for mixing data, and find that the saliency information is not so necessary for promoting the augmentation performance. Furthermore, we find that the cutting based data mixing methods carry two problems of label misallocation and object information missing, which cannot be resolved simultaneously. We propose a more effective but very easily implemented method, namely ResizeMix. We mix the data by directly resizing the source image to a small patch and paste it on another image. The obtained patch preserves more substantial object information compared with conventional cut-based methods. ResizeMix shows evident advantages over CutMix and the saliency-guided methods on both image classification and object detection tasks without additional computation cost, which even outperforms most costly search-based automatic augmentation methods.

研究动机与目标

  • 评估显著性在基于混合的增强中的作用并识别基于裁切的补丁(标签错误分配和对象信息损失)的缺点。
  • 开发一种在不增加额外成本的情况下保持对象信息与真标签的数据增强方法。
  • 在 CIFAR-10/100 与 ImageNet 的图像分类,以及对象检测(MS-COCO 与 Pascal VOC)上展示 ResizeMix 的有效性。
  • 将 ResizeMix 与 CutMix 和显著性引导方法进行比较,并通过消融研究理解设计选择。

提出的方法

  • 系统地评估基于显著性的混合,通过比较补丁粘贴位置(非显著、显著、随机)和补丁来源(显著、非显著、随机)。
  • 提出 ResizeMix:将整个源图像按随机尺度 tau 缩放,并将缩放后的补丁粘贴到目标图像的随机区域;标签混合计算为 l_m = lambda l_s + (1-lambda) l_t,其中 lambda = tau^2。
  • 通过避免显著性模块或基于搜索的增广来确保除了标准混合之外没有额外的计算成本。
  • 在 CIFAR-10、CIFAR-100、ImageNet 以及对象检测基准(MS-COCO、Pascal VOC)上进行广泛实验,以与 CutMix 和显著性引导的方法进行比较。

实验结果

研究问题

  • RQ1显著性信息是否对混合式增广的有效性,尤其是补丁粘贴位置和补丁获取方式,具有决定性作用?
  • RQ2是否可以通过非裁切、保信息的补丁——特别是缩放后的整张图像——解决数据混合中的标签错误分配和对象信息损失?
  • RQ3在图像分类和对象检测任务中,ResizeMix 相对于 CutMix 和显著性引导的增广方法表现如何?
  • RQ4哪些消融(例如缩放比例、RandAugment 放置)会进一步影响 ResizeMix 的性能?

主要发现

  • 显著性引导的粘贴位置确实提供了一定的好处,但随机粘贴通常能带来更高的数据多样性且常取得更佳的性能。
  • 基于裁切的补丁可能导致标签错误分配和对象信息丢失;缩放整张图像可保留对象信息并避免分配错误。
  • ResizeMix 在 CIFAR-10/100 与 ImageNet 上始终优于 CutMix 和显著性引导方法,且没有额外的计算成本;ResizeMix+ 与 RandAugment 的组合进一步提升了结果。
  • 在对象检测任务中,使用 ResizeMix 预训练的骨干网络在 MS-COCO 和 Pascal VOC 的 SSD 与 Faster R-CNN 设置中比 CutMix获得更高的 mAP。
  • 消融结果显示在半分辨率训练中 resizing 优于 cropping, RandAugment 应在混合后应用以获得最好增益,且缩放比例 alpha/beta 约在 0.1–0.8 时效果较好。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。