[论文解读] Why do deep convolutional networks generalize so poorly to small image transformations?
本文表明现代CNN对极小的图像变换(平移、重新缩放)并非不变,尽管存在卷积和数据增强,分析原因(采样/混叠和数据集偏差),并在有限成功的前提下测试部分对策(抗混叠、增加数据增强)。
Convolutional Neural Networks (CNNs) are commonly assumed to be invariant to small image transformations: either because of the convolutional architecture or because they were trained using data augmentation. Recently, several authors have shown that this is not the case: small translations or rescalings of the input image can drastically change the network's prediction. In this paper, we quantify this phenomena and ask why neither the convolutional architecture nor data augmentation are sufficient to achieve the desired invariance. Specifically, we show that the convolutional architecture does not give invariance since architectures ignore the classical sampling theorem, and data augmentation does not give invariance because the CNNs learn to be invariant to transformations only for images that are very similar to typical images from the training set. We discuss two possible solutions to this problem: (1) antialiasing the intermediate representations and (2) increasing data augmentation and show that they provide only a partial solution at best. Taken together, our results indicate that the problem of insuring invariance to small image transformations in neural networks while preserving high accuracy remains unsolved.
研究动机与目标
- 量化小尺度图像变换在不同体系结构和协议下对CNN预测的影响。
- 解释卷积结构和标准数据增强为何不能保证不变性。
- 研究采样理论与平移性在CNN表征中的作用。
- 评估提出的对策(抗混叠、增加数据增强)并评估其有效性。
- 强调数据集偏差对学习到的不变性的影响。
提出的方法
- 设计四种一像素扰动协议(裁剪、带黑边界的嵌入、带修补的嵌入、尺寸变化的嵌入)以测试对ImageNet验证图像的平移/缩放敏感性。
- 使用两个不变性度量对六个预训练网络(VGG16、ResNet50、InceptionResNetV2,跨Keras和PyTorch)进行评估:P(Top-1 change) 和 mean absolute change (MAC)。
- 通过在中间表示上训练读出层,分析逐层的平移性以随深度增加而衡量平移稳定性。
- 在理论上将平移性与采样定理及Nyquist频率联系起来,解释何时全局池化能够产生平移不变性。
- 将抗混叠与数据增强作为潜在对策进行实验并评估它们对不变性的影响。
- 研究ImageNet中的摄影师偏见和图像典型性如何影响学到的不变性。
实验结果
研究问题
- RQ1在常见架构中,微小平移或重新缩放多频繁地导致CNN预测发生变化?
- RQ2为何卷积架构和数据增强不能提供完整的平移不变性?
- RQ3采样/子采样与平移性在CNN表征不变性中扮演何种角色?
- RQ4抗混叠或增加数据增强是否能够在不牺牲准确性的前提下显著提高不变性?
- RQ5数据集偏差(训练图像的典型性)如何影响学习到的不变性?
主要发现
- 一个像素扰动在多种体系结构和扰动协议下,CNN的Top-1预测可能改变的概率高达约30%。
- 由于下采样和混叠,除非表示具有平移性,否则卷积或数据增强并不能保证CNN的平移不变性,这在较深的层中往往并非如此。
- 如果特征图具有平移性,全局池化才具有不变性;具有较大下采样因子的深层CNN会失去平移性,导致对平移不具有不变性。
- 增加测试图像与训练图像之间的嵌入差异(典型性)会提高对扰动的敏感性;当测试图像更像训练样本时,模型变得更不变。
- 抗混叠(在下采样前进行模糊)仅带来部分改进,非线性可能重新引入高频成分,限制了其有效性。
- 更激进的数据增强在一定程度上可以提高不变性,但不是一个完整的解决方案;训练数据中的偏见(摄影师偏差)会对学习到的不变性产生很大影响。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。