[论文解读] Scale Steerable Filters for Locally Scale-Invariant Convolutional Neural Networks
本文提出对数-放射对称的尺度可导向滤波器以构建局部尺度不变的 CNN (SS-CNN),并在 MNIST-Scale 和 FMNIST-Scale 上相对于基线显示出性能提升。
Augmenting transformation knowledge onto a convolutional neural network's weights has often yielded significant improvements in performance. For rotational transformation augmentation, an important element to recent approaches has been the use of a steerable basis i.e. the circular harmonics. Here, we propose a scale-steerable filter basis for the locally scale-invariant CNN, denoted as log-radial harmonics. By replacing the kernels in the locally scale-invariant CNN \cite{lsi_cnn} with scale-steered kernels, significant improvements in performance can be observed on the MNIST-Scale and FMNIST-Scale datasets. Training with a scale-steerable basis results in filters which show meaningful structure, and feature maps demonstrate which demonstrate visibly higher spatial-structure preservation of input. Furthermore, the proposed scale-steerable CNN shows on-par generalization to global affine transformation estimation methods such as Spatial Transformers, in response to test-time data distortions.
研究动机与目标
- 说明在仅旋转和平移之外,变换感知的 CNN 权重的需求。
- 提出一个尺度可转向的基底(对数-放射调和函数)以实现滤波器的精确尺度转向。
- 将尺度可转向基底整合到局部尺度不变的 CNN (SS-CNN) 并端到端训练。
- 在尺度变化的数据集(MNIST-Scale, FMNIST-Scale)以及局部尺度变化场景下,展示改进的准确率和结构保留。
提出的方法
- 定义在尺度和方向上均可转向的对数-放射调和基函数滤波器。
- 将每个卷积核表示为基函数滤波器线性组合的实部,系数为复数。
- 推导尺度转向关系 W^s(as)=s^{m-2} e^{-i k log s} (basis 的和),并对实权重取实部。
- 通过与尺度转向滤波器卷积并对尺度进行最大池化来获得尺度不变表征,从而构建 SS-CNN。
- 在 MNIST-Scale 和 FMNIST-Scale 上,与基线(LocScaleInv-CNN, LocScaleEq-CNN, Spatial Transformer)进行比较,使用类似的参数预算。
实验结果
研究问题
- RQ1对数-放射调和尺度可转向滤波器是否能够为 CNN 提供精确的尺度转向?
- RQ2相比现有的尺度不变方法,SS-CNN 是否在具有全局和局部尺度变化的数据集上提高鲁棒性和准确性?
- RQ3尺度转向滤波器如何影响滤波器结构和中间特征图?
- RQ4在处理测试时的畸变方面,SS-CNN 相对于 Spatial Transformer Networks 的表现如何?
- RQ5哪些设计选择(中心性、尺度采样)会影响变换敏感性和性能?
主要发现
- SS-CNN 在 MNIST-Scale 上达到与 Spatial Transformer Networks 相当的准确性,并胜过若干尺度等变基线。
- 尺度可转向滤波器产生更有结构、集中且可解释的第一层滤波器,且在特征图中更好地保持了空间结构。
- 在弹性畸变下,SS-CNN 仍然鲁棒,且通常优于基线,展示出对畸变的强泛化能力。
- 对于局部尺度变化,SS-CNN 表现更优,尤其是在训练数据有限的情况下,相较于 Spatial Transformer 基线。
- 可视化表明,与非尺度转向的对应方法相比,SS-CNN 的激活保留了更高的空间结构。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。