[论文解读] How Much Position Information Do Convolutional Neural Networks Encode?
该论文证明绝对位置信息在CNN特征图中被隐式编码,即使网络仅用于对象识别训练,并分析填充和网络深度如何促成这种位置信息编码。
In contrast to fully connected networks, Convolutional Neural Networks (CNNs) achieve efficiency by learning weights associated with local filters with a finite spatial extent. An implication of this is that a filter may know what it is looking at, but not where it is positioned in the image. Information concerning absolute position is inherently useful, and it is reasonable to assume that deep CNNs may implicitly learn to encode this information if there is a means to do so. In this paper, we test this hypothesis revealing the surprising degree of absolute position information that is encoded in commonly used neural networks. A comprehensive set of experiments show the validity of this hypothesis and shed light on how and where this information is represented while offering clues to where positional information is derived from in deep CNNs.
研究动机与目标
- 调查CNN是否在学习到的特征图中编码绝对位置信息。
- 使用合成的地面实况位置信息图来量化预训练CNN中的位置信息。
- 分析填充和网络架构如何影响位置信息的编码。
- 确定CNN中哪些层携带更多位置信息,以及如何改进对该信息的读出。
提出的方法
- 冻结在ImageNet上预训练的编码器网络(如VGG16、ResNet)。
- 附加一个轻量级的位置编码模块(PosENet),它读取多尺度特征并输出一个梯度状的位置图 hat(fp)。
- 使用像素级均方误差对抗合成的地面实况位置图来训练PosENet(H: 水平梯度、V: 垂直梯度、G: 高斯、HS/VS: 条纹)。
- 在自然和合成数据集上通过Spearman相关系数(SPC)和平均绝对误差(MAE)评估位置信息的读出能力。
- 针对层、卷积核尺寸和填充进行消融实验,以理解位置信息如何存储以及如何读出。
实验结果
研究问题
- RQ1经过对象识别训练的CNN是否隐式地在其特征图中编码绝对位置信息?
- RQ2一个读出网络从预训练CNN特征中提取绝对位置信息有多容易?
- RQ3网络深度、卷积核尺寸和填充在编码与提取位置信息中扮演何种角色?
- RQ4预训练CNN中的哪些层携带更多位置信息,语义内容如何影响这种编码?
主要发现
- 位置信息在常用CNN中被稳健编码,并且可以通过在冻结编码器之上训练的轻量级读出(PosENet)进行提取。
- 基于ResNet的读出在恢复绝对位置信息方面优于基于VGG的读出,表明更深的/看似语义性更强的表示有助于编码位置信息。
- 更大的感受野(更大的卷积核尺寸)和更深的读出提升位置信息的提取。
- 边界处的零填充是位置信息的关键来源;移除填充会降低,添加填充会提升位置信息的读出性能。
- 位置信息在更深的编码器特征(fpos5)中比在较浅层(fpos1)更强,表明高级特征携带更多的空间线索。
- 当任务涉及语义(显著性、分割)时,零填充继续影响位置信息线索,且可能因在非分类任务上的预训练而被强化。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。