[论文解读] FcaNet: Frequency Channel Attention Networks
FcaNet 通过 2D-DCT 将通道在多个频率分量上进行压缩,从而拓展通道注意力,并显示 GAP 是 DCT 的一个特例,在 ImageNet 和 COCO 上在没有额外参数或开销的情况下实现了最先进的结果。
Attention mechanism, especially channel attention, has gained great success in the computer vision field. Many works focus on how to design efficient channel attention mechanisms while ignoring a fundamental problem, i.e., channel attention mechanism uses scalar to represent channel, which is difficult due to massive information loss. In this work, we start from a different view and regard the channel representation problem as a compression process using frequency analysis. Based on the frequency analysis, we mathematically prove that the conventional global average pooling is a special case of the feature decomposition in the frequency domain. With the proof, we naturally generalize the compression of the channel attention mechanism in the frequency domain and propose our method with multi-spectral channel attention, termed as FcaNet. FcaNet is simple but effective. We can change a few lines of code in the calculation to implement our method within existing channel attention methods. Moreover, the proposed method achieves state-of-the-art results compared with other channel attention methods on image classification, object detection, and instance segmentation tasks. Our method could consistently outperform the baseline SENet, with the same number of parameters and the same computational cost. Our code and models will are publicly available at https://github.com/cfzd/FcaNet.
研究动机与目标
- 将通道注意力重新表述为通道压缩问题。
- 使用 DCT 将通道注意力从 GAP 推广到多个频率分量。
- 提出一个具有灵活频率选择准则的多光谱通道注意力(MSCA)框架。
- 证明 MSCA 在图像分类、目标检测和实例分割上取得更好性能,同时保持与 SENet 相同的参数量和计算量。
提出的方法
- 通过使用 2D DCT 的基于频率的压缩,将每个通道表示为一个标量。
- 证明全局平均池化(GAP)对应于最低频的 DCT 分量(一个特例)。
- 将通道分成若干部分,为每部分分配一个 DCT 频率分量,并将结果拼接以形成一个多光谱压缩向量(Freq)。
- 通过 sigmoid(fc(Freq)) 计算注意力,以重新加权通道。
- 提出三种频率选择标准:LF(低频)、TS(两步选择)、NAS(神经架构搜索)。
- 通过使用预计算的 DCT 基函数,保持与 SENet 相同的参数量并且开销可忽略不计。
实验结果
研究问题
- RQ1通道注意力是否可以有效地重新表述为一个频域压缩问题?
- RQ2将多个 DCT 频率分量结合起来是否比基于 GAP 的方法改进了通道级特征表示?
- RQ3不同的频率分量选择策略(LF、TS、NAS)在各视觉任务中的性能表现如何?
- RQ4在与 SENet 相同计算预算下,提出的 MSCA 框架是否能提高 ImageNet 分类和 COCO 检测/分割的性能?
主要发现
- 多光谱通道注意力(MSCA)在分类和检测任务中始终优于基于 GAP 的 SENet。
- 使用多个 DCT 频率分量比单分量 GAP 提供更好的特征压缩和更高的准确性。
- 低频分量通常有效,但包含更广泛的频率集合可带来显著提升(在某些设置中,对应 2 或 16 个分量尤其如此)。
- 三种选择方案(LF、TS、NAS)为选择频率分量提供灵活选项,TS 提供实用的 Top-K 基本选择,NAS 使组件选择能够学习。
- MSCA 保持与 SENet 相同的参数数量和可忽略的计算开销,同时在 ImageNet 和 COCO 基准上实现最先进的结果。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。