[论文解读] Spectral Representations for Convolutional Neural Networks
本文通过利用离散傅里叶变换(DFT)引入卷积神经网络(CNNs)的谱表示,以实现谱池化和复系数滤波器参数化。谱池化通过截断频域分量来降低维度,在保留更多信息的同时,相比最大池化具有更高的灵活性和输出尺寸可控性。复系数谱参数化通过利用频域中的稀疏性,使训练收敛速度提升2–5倍,从而在不使用Dropout或最大池化的情况下实现具有竞争力的性能。
Discrete Fourier transforms provide a significant speedup in the computation of convolutions in deep learning. In this work, we demonstrate that, beyond its advantages for efficient computation, the spectral domain also provides a powerful representation in which to model and train convolutional neural networks (CNNs). We employ spectral representations to introduce a number of innovations to CNN design. First, we propose spectral pooling, which performs dimensionality reduction by truncating the representation in the frequency domain. This approach preserves considerably more information per parameter than other pooling strategies and enables flexibility in the choice of pooling output dimensionality. This representation also enables a new form of stochastic regularization by randomized modification of resolution. We show that these methods achieve competitive results on classification and approximation tasks, without using any dropout or max-pooling. Finally, we demonstrate the effectiveness of complex-coefficient spectral parameterization of convolutional filters. While this leaves the underlying model unchanged, it results in a representation that greatly facilitates optimization. We observe on a variety of popular CNN configurations that this leads to significantly faster convergence during training.
研究动机与目标
- 探索频域作为建模和训练CNN的有力表示,超越计算效率的范畴。
- 解决传统池化方法(如最大池化)固有的信息损失和维度降低不灵活的问题。
- 通过在谱域重新参数化滤波器,提升CNN训练的优化效率。
- 通过频域截断实现灵活、分辨率可控的维度降低。
- 证明谱表示可在不依赖Dropout或最大池化的情况下实现具有竞争力的性能。
提出的方法
- 提出谱池化:在对特征图应用DFT后,通过截断频域表示实现维度降低。
- 引入复系数谱参数化卷积滤波器,即在频域中直接学习滤波器,并通过逆DFT转换回空间域。
- 利用DFT的酉性质,确保谱重参数化下模型容量保持不变。
- 通过随机截断频域分量,在训练中实现随机分辨率修改,作为一类随机正则化方法。
- 使用Adam优化器比较空间域与谱域滤波器参数化下的收敛速度。
- 在已使用基于FFT的卷积的网络中,谱池化仅需矩阵截断,计算开销可忽略不计。
实验结果
研究问题
- RQ1与传统池化相比,频域是否能为CNN中的维度降低提供更具信息量且更高效的表示?
- RQ2在谱域中学习滤波器是否能改善CNN训练的优化动态和收敛速度?
- RQ3谱池化在实现任意输出维度的同时,能在多大程度上保留信息?
- RQ4谱表示是否能减少甚至消除CNN中对Dropout和最大池化的依赖?
- RQ5谱参数化如何影响具有不同滤波器尺寸和架构的CNN的优化景观和收敛行为?
主要发现
- 谱池化在每参数信息保留方面显著优于最大池化,尤其得益于信号能量集中在低频分量。
- 谱池化通过可控地截断频域分量,可实现灵活的非均匀维度降低,支持任意期望的输出尺寸。
- 复系数谱参数化在多种CNN架构和滤波器尺寸下,使训练收敛速度提升2–5倍。
- 该方法在基准任务上实现了具有竞争力的分类和近似性能,且无需使用Dropout或最大池化。
- 谱表示利用滤波器频域分量的稀疏性,相比空间域表示,提供了更具意义的优化方向。
- 该方法与批量归一化兼容,并在与基于FFT的卷积结合使用时保持高效。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。