Skip to main content
QUICK REVIEW

[论文解读] What are the Receptive, Effective Receptive, and Projective Fields of Neurons in Convolutional Neural Networks?

Hung Le, Ali Borji|arXiv (Cornell University)|May 19, 2017
CCD and CMOS Imaging Sensors参考文献 1被引用 43
一句话总结

本文提出了一套全面的框架,用于计算卷积神经网络(CNN)中的感受野(RF)、有效感受野(ERF)和投影场(PF)。该框架引入了自底向上和自顶向下的方法,利用滤波器大小和步长计算ERF大小,表明ERF通过各层实现分层扩展,而PF量化了神经元对下游特征的影响,其大小随步长和滤波器大小变化。主要贡献在于提出了一种统一的分析方法,可精确确定CNN中空间影响区域,从而提升网络架构设计与可解释性。

ABSTRACT

In this work, we explain in detail how receptive fields, effective receptive fields, and projective fields of neurons in different layers, convolution or pooling, of a Convolutional Neural Network (CNN) are calculated. While our focus here is on CNNs, the same operations, but in the reverse order, can be used to calculate these quantities for deconvolutional neural networks. These are important concepts, not only for better understanding and analyzing convolutional and deconvolutional networks, but also for optimizing their performance in real-world applications.

研究动机与目标

  • 澄清并形式化CNN中感受野(RF)、有效感受野(ERF)和投影场(PF)的定义,解决文献中常见的混淆问题。
  • 提供一种系统化的方法,通过自底向上和自顶向下的方法,计算分层结构中ERF的大小。
  • 推导出考虑滤波器大小、步长和层特定操作的ERF与PF的显式方程,实现对特征影响的精确分析。
  • 证明ERF与PF在特征图上并非均匀分布,而是依赖于空间位置和网络超参数。
  • 通过反转计算顺序,将该框架扩展至反卷积网络,实现对特征重建的分析。

提出的方法

  • 提出一种自底向上的ERF计算方法,通过公式 $ R_k = R_{k-1} + (f_k - 1) \prod_{i=1}^{k-1} s_i $ 累加非重叠区域,其中 $ f_k $ 为滤波器大小,$ s_i $ 为步长。
  • 引入一种自顶向下的方法,使用递归公式 $ R_{k,j} = (R_{k,j+1} - 1)s_{j+1} + f_{j+1} $,实现从高层到低层的影响反向追踪。
  • 推导出投影场(PF)大小作为下一层滤波器大小 $ f_{k+1} $ 和步长 $ s_{k+1} $ 的函数,基于向下取整与向上取整操作,存在四种可能的PF大小。
  • 使用表达式 $ P_k = \left\{ \left\lfloor \frac{f_{k+1}}{s_{k+1}} \right\rfloor \times \left\lfloor \frac{f_{k+1}}{s_{k+1}} \right\rfloor, \dots, \left\lceil \frac{f_{k+1}}{s_{k+1}} \right\rceil \times \left\lceil \frac{f_{k+1}}{s_{k+1}} \right\rceil \right\} $ 建模特征图不同位置的可变PF大小。
  • 通过一维和二维可视化验证ERF与PF的计算结果,包括滑动滤波器模拟与跨层空间映射。
  • 通过反转ERF计算路径,将该框架扩展至反卷积网络,实现对生成模型中特征生成过程的PF分析。

实验结果

研究问题

  • RQ1如何在考虑滤波器大小和步长的前提下,精确计算CNN中神经元的特征感受野(ERF)大小,尤其是在多层结构中?
  • RQ2感受野(RF)、有效感受野(ERF)和投影场(PF)之间的区别是什么?为何在实践中它们常被混淆?
  • RQ3当步长大于1时,如何影响特征图不同位置上投影场(PF)的分布与大小?
  • RQ4能否将用于CNN的同一数学框架适配至反卷积网络,以分析特征重建过程?
  • RQ5投影场大小在空间上的差异在多大程度上影响模型在实际应用中的行为或性能?

主要发现

  • CNN中神经元的有效感受野(ERF)并非简单等于滤波器大小,而是基于累积步长与滤波器大小实现分层扩展,自底向上公式 $ R_k = R_{k-1} + (f_k - 1) \prod_{i=1}^{k-1} s_i $ 能够准确估计其大小。
  • 自顶向下的方法使用公式 $ R_{k,j} = (R_{k,j+1} - 1)s_{j+1} + f_{j+1} $,可实现从高层到低层的影响高效反向追踪,从而实现快速ERF估计。
  • 投影场(PF)在特征图内部存在空间差异:对于 $ 5\times5 $ 滤波器与步长2,中心位置的神经元具有 $ 3\times3 $ 的PF,边缘位置为 $ 3\times2 $ 或 $ 2\times3 $,角落位置为 $ 2\times2 $,具体取决于位置。
  • 当 $ f_{k+1}/s_{k+1} $ 不为整数时,PF大小并非均匀,产生四种不同的PF大小配置,解释了特征影响的空间差异性。
  • 对于反卷积网络,神经元的ERF对应于其在对应CNN中的投影场,从而可实现对特征生成过程的反向分析。
  • 本文证明ERF与PF本质上不同:ERF衡量输入区域对神经元的影响范围,而PF衡量神经元对输出特征的影响范围,二者在模型可解释性与架构设计中均至关重要。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。