[论文解读] Scale equivariance in CNNs with vector fields
论文通过在多尺度应用滤波器并将激活表示为二维向量场(大小和尺度),实现尺度等变的CNN,在 MNIST-scale 分类方面取得改进并在尺度因子回归方面优越。
We study the effect of injecting local scale equivariance into Convolutional Neural Networks. This is done by applying each convolutional filter at multiple scales. The output is a vector field encoding for the maximally activating scale and the scale itself, which is further processed by the following convolutional layers. This allows all the intermediate representations to be locally scale equivariant. We show that this improves the performance of the model by over $20\%$ in the scale equivariant task of regressing the scaling factor applied to randomly scaled MNIST digits. Furthermore, we find it also useful for scale invariant tasks, such as the actual classification of randomly scaled digits. This highlights the usefulness of allowing for a compact representation that can also learn relationships between different local scales by keeping internal scale equivariance.
研究动机与目标
- 激发在对象大小有信息量的任务中将局部尺度信息纳入卷积神经网络。
- 提出一种尺度等变卷积框架,能够在各层中保持尺度信息。
- 在 MNIST-scale 上对分类和尺度因子回归进行评估。
- 证明保持尺度信息能够提升性能并使学习尺度关系成为可能。
提出的方法
- 对输入在多个尺度上使用滤波器进行卷积,并跨尺度池化以在每个位置产生最大激活。
- 将最大激活的尺度编码为二维向量的角度,幅值表示激活强度。
- 用考虑幅值和尺度的向量场卷积处理得到的向量场。
- 使用 120 度的尺度范围(角度)来参数化尺度交互。
- 端到端训练;对于分类,使用幅值作为全连接层输入,而尺度角度用于尺度回归。
- 保持向量场表示(幅值和角度)而不是标量输出,以实现局部尺度等变。
实验结果
研究问题
- RQ1本地尺度等变是否能提升尺度变化图像分类任务的表现?
- RQ2通过向量场表示保持尺度信息是否能提升尺度因子回归的表现?
- RQ3在 MNIST-scale 的分类和回归任务中,尺度等变与尺度不变的对比如何?
- RQ4向量场角度范围和多尺度池化对学习尺度关系有何影响?
主要发现
- 尺度等变 CNN 在 MNIST-scale 分类上达到 2.44% 的错误率,优于包括尺度不变和标准 CNN 变体在内的若干基线。
- 尺度等变模型将尺度因子 RMSE 降低到 0.206,优于标准模型(0.254)和尺度不变模型(0.256)。
- 使用向量场表示(幅值+尺度)在分类方面优于仅幅值表示的(尺度不变)表示。
- 该方法能够学习不同局部尺度之间的交互,即使任务本质上是尺度不变的。
- 与标准 CNN 相比,该方法在可学习滤波器更少的情况下实现相似或更好的性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。