[论文解读] ImageNet-trained CNNs are biased towards texture; increasing shape bias improves accuracy and robustness
本论文展示在 ImageNet 训练的 CNN 更依赖纹理而非形状,提出 Stylized-ImageNet 以诱导基于形状的表示,并证明在转移学习中提升了准确性和鲁棒性,包括更好的对象检测。
Convolutional Neural Networks (CNNs) are commonly thought to recognise objects by learning increasingly complex representations of object shapes. Some recent studies suggest a more important role of image textures. We here put these conflicting hypotheses to a quantitative test by evaluating CNNs and human observers on images with a texture-shape cue conflict. We show that ImageNet-trained CNNs are strongly biased towards recognising textures rather than shapes, which is in stark contrast to human behavioural evidence and reveals fundamentally different classification strategies. We then demonstrate that the same standard architecture (ResNet-50) that learns a texture-based representation on ImageNet is able to learn a shape-based representation instead when trained on "Stylized-ImageNet", a stylized version of ImageNet. This provides a much better fit for human behavioural performance in our well-controlled psychophysical lab setting (nine experiments totalling 48,560 psychophysical trials across 97 observers) and comes with a number of unexpected emergent benefits such as improved object detection performance and previously unseen robustness towards a wide range of image distortions, highlighting advantages of a shape-based representation.
研究动机与目标
- 使用纹理-形状线索冲突图像量化 CNN 与人类在纹理与形状偏好上的差异。
- 证明 Stylized-ImageNet 能将 CNN 的表示转向基于形状。
- 评估形状偏好模型在不同任务和失真条件下的鲁棒性与转移性能。
提出的方法
- 通过风格迁移创建纹理-形状线索冲突图像,以比较人类和 CNN 的分类。
- 在 Stylized-ImageNet 上训练 CNN 以抑制纹理线索并鼓励基于形状的表示。
- 评估线索冲突性能,以衡量多种架构的形状与纹理偏好。
- 测试对广泛失真和污染的鲁棒性,比较 IN、SIN 和 Shape-ResNet 变体。
- 使用 Faster R-CNN 作为骨干网络,分析在 Pascal VOC 2007 和 MS COCO 上的转移性能。
实验结果
研究问题
- RQ1与人类相比,ImageNet 训练的 CNN 是否更偏向于纹理而非形状?
- RQ2在 Stylized-ImageNet 上的训练是否能将 CNN 表示从纹理转向形状?
- RQ3基于形状的表示是否能在目标检测中提升对失真和转移的鲁棒性?
主要发现
- 在人类的线索冲突图像中表现出形状偏好,而 CNN 显示出强烈的纹理偏好。
- 在 Stylized-ImageNet 上训练的 ResNet-50 显示出向形状偏好的大幅转变(高达 81%),在许多类别上接近人类水平。
- SIN 训练的模型在失真和污染基准上的鲁棒性得到提升,在某些条件下往往达到或超过人类表现。
- 结合 SIN(或 Shape-ResNet)提升 ImageNet 的 top-1/top-5 准确率,并提高 Pascal VOC 2007 和 MS COCO 上的目标检测 mAP50。
- 联合训练 SIN 与 IN,且可选在 IN 上进行微调,获得最佳整体检测性能(Pascal VOC 2007 上 75.1 mAP50;MS COCO 上 55.2 mAP50)。
- 在 SIN 上训练的基于形状的表示对 ImageNet 的泛化性良好,并提升跨数据集转移性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。