[论文解读] Wavelet Convolutional Neural Networks for Texture Classification
引入将小波分解融入卷积神经网络的 Wavelet CNNs,在参数更少的前提下提升纹理分类的效果。
Texture classification is an important and challenging problem in many image processing applications. While convolutional neural networks (CNNs) achieved significant successes for image classification, texture classification remains a difficult problem since textures usually do not contain enough information regarding the shape of object. In image processing, texture classification has been traditionally studied well with spectral analyses which exploit repeated structures in many textures. Since CNNs process images as-is in the spatial domain whereas spectral analyses process images in the frequency domain, these models have different characteristics in terms of performance. We propose a novel CNN architecture, wavelet CNNs, which integrates a spectral analysis into CNNs. Our insight is that the pooling layer and the convolution layer can be viewed as a limited form of a spectral analysis. Based on this insight, we generalize both layers to perform a spectral analysis with wavelet transform. Wavelet CNNs allow us to utilize spectral information which is lost in conventional CNNs but useful in texture classification. The experiments demonstrate that our model achieves better accuracy in texture classification than existing models. We also show that our model has significantly fewer parameters than CNNs, making our model easier to train with less memory.
研究动机与目标
- 通过将谱分析引入 CNN,推动纹理分类的改进。
- 将池化和卷积推广为通用滤波与下采样,以实现基于小波的多分辨率分析。
- 在标准纹理数据集上展示准确率和参数效率。
- 与 AlexNet、T-CNN 及谱方法对比,展示该方法的优势。
提出的方法
- 将卷积与池化重新表述为通用滤波和下采样。
- 在网络中引入 Haar 小波多分辨率分析,使用低频/高频分量。
- 使用类似 VGG-19 的架构,3x3 卷积、1x1 填充和基于步幅的下采样。
- 在全连接层之前插入能量层,以增强纹理特征。
- 从头训练并进行 ImageNet 预训练对比性能。
- 在 Caffe 中实现并在 224x224 输入、数据增强和批量归一化下训练。
实验结果
研究问题
- RQ1在 CNN 内部进行小波基于的多分辨率分析,是否能提升纹理分类准确率,相较传统 CNN?
- RQ2将高频分量与低频分量结合是否能保持信息并提升对纹理变化的鲁棒性?
- RQ3与现有的谱方法及基于 CNN 的纹理方法相比,在准确率和参数效率方面 Wavelet CNN 的表现如何?
- RQ4分解层数对纹理分类性能有何影响?
主要发现
- 在从头训练且跨越多种分解层数的情况下,Wavelet CNNs 在纹理数据集上超越 AlexNet 和 T-CNN。
- 4 层分解通常在准确率与参数之间取得最佳平衡。
- 在 ImageNet 预训练下,Wavelet CNN 在 kth-tips2-b 上达到最高性能,在 DTD 上也具有竞争力,且参数远少于 FV-CNN。
- Wavelet CNN 的可训练参数显著少于竞争模型(例如在某些配置下不到 90 MB)。
- 四层分解提供了强劲的性能,而五层因参数增加而收益递减。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。