[论文解读] Wavelet Convolutional Neural Networks
该论文将多分辨率小波分析整合到卷积神经网络(CNN)中,以捕捉谱信息,创造出在纹理分类和图像标注方面表现更好的 Wavelet CNNs,同时参数量远少于传统 CNN。
Spatial and spectral approaches are two major approaches for image processing tasks such as image classification and object recognition. Among many such algorithms, convolutional neural networks (CNNs) have recently achieved significant performance improvement in many challenging tasks. Since CNNs process images directly in the spatial domain, they are essentially spatial approaches. Given that spatial and spectral approaches are known to have different characteristics, it will be interesting to incorporate a spectral approach into CNNs. We propose a novel CNN architecture, wavelet CNNs, which combines a multiresolution analysis and CNNs into one model. Our insight is that a CNN can be viewed as a limited form of a multiresolution analysis. Based on this insight, we supplement missing parts of the multiresolution analysis via wavelet transform and integrate them as additional components in the entire architecture. Wavelet CNNs allow us to utilize spectral information which is mostly lost in conventional CNNs but useful in most image processing tasks. We evaluate the practical performance of wavelet CNNs on texture classification and image annotation. The experiments show that wavelet CNNs can achieve better accuracy in both tasks than existing models while having significantly fewer parameters than conventional CNNs.
研究动机与目标
- 将CNN与多分辨率分析结合在单一模型中。
- 将 CNN 重新表述为有限形式的多分辨率分析并补充缺失的高频分量。
- 在纹理分类与图像标注任务上以更少的参数展示实用性提升。
- 展示 Wavelet CNNs 能从头训练和在真实数据集上进行微调的有效性。
提出的方法
- 将卷积与池化重新表述为广义滤波与下采样操作。
- 引入第二组高通/低通滤波器(受小波启发)以在网络内部形成多分辨率分解。
- 使用 Haar 小波在 CNN 架构中实现小波变换。
- 采用类似 VGG 的骨干网络,配以密集连接与投影捷径以融合多分辨率分支。
- 采用全局平均池化、批归一化和 Adam 优化器,输入尺寸固定为 224×224。
- 在纹理与标注任务上进行训练,以展示效率与性能优势。
实验结果
研究问题
- RQ1将多分辨率(小波)分析嵌入到 CNN 是否能提升其捕捉谱信息的能力?
- RQ2在纹理分类和图像标注任务中,Wavelet CNNs 是否在使用更少可训练参数的情况下实现更好或具竞争力的准确率?
- RQ3在从头训练和微调两种情景下,Wavelet 基于方法与现有光谱和 CNN 架构(如 AlexNet、T-CNN)相比有何差异?
主要发现
- Wavelet CNNs 在从头训练时,在 kth-tips2-b 和 DTD 数据集上的纹理分类准确率,优于 AlexNet 和 T-CNN。
- 五层多分辨率分解时,Wavelet CNNs 在从头训练时的准确率达到 63.7%,在 kth-tips2-b 上取决于层级在 59–63% 之间,在 DTD 上为 35.6%。
- 在 ImageNet 预训练后,Wavelet CNNs 在纹理数据集上优于光谱与双线性池化基线(例如在 kth-tips2-b 上为 74.0%,而最佳对比为 72.4%)。
- 在图像标注任务中,Wavelet CNNs 相对于基于 VGG-16 的 RIAs,在 IAPR-TC12 上的每类与总体指标均有所提升(如 C-P 29.01 对 22.97; O-P 37.43 对 33.87)。
- 在 Microsoft COCO 上,Wavelet CNNs 在每类和总体的精确度/召回率/F1 值方面显示出与 VGG-16 RIAs 的有竞争性的提升。
- Wavelet CNNs 所使用的参数显著更少(约 18.3M),相比 VGG-16(138.4M)及其他基线,内存占用约 53.9 MB 对比 232 MB。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。