[论文解读] Compact Generalized Non-local Network
CGNL 将非本地网络扩展到跨通道位置交互建模,使用紧凑的基于泰勒展开的近似,在多数据集上提升细粒度分类和动作识别的性能。
The non-local module is designed for capturing long-range spatio-temporal dependencies in images and videos. Although having shown excellent performance, it lacks the mechanism to model the interactions between positions across channels, which are of vital importance in recognizing fine-grained objects and actions. To address this limitation, we generalize the non-local module and take the correlations between the positions of any two channels into account. This extension utilizes the compact representation for multiple kernel functions with Taylor expansion that makes the generalized non-local module in a fast and low-complexity computation flow. Moreover, we implement our generalized non-local method within channel groups to ease the optimization. Experimental results illustrate the clear-cut improvements and practical applicability of the generalized non-local module on both fine-grained object recognition and video classification. Code is available at: https://github.com/KaiyuYue/cgnl-network.pytorch.
研究动机与目标
- 通过建模跨通道的位置间交互来提升细粒度识别的效果。
- 提出一个紧凑的 generalized non-local (CGNL) 模块,采用基于泰勒级数的核近似来提高效率。
- 通过通道分组来简化优化与扩展性。
- 在细粒度分类和动作识别任务中验证 CGNL 的有效性。
- 提供洞见与消融分析,将 CGNL 与原始的 non-local 块和基线进行比较。
提出的方法
- 将 non-local 操作推广为建模跨任意通道位置之间的相关性(Eq. 8)。
- 将 non-local 计算改写为 vec(Y)=f(vec(XW_theta),vec(XW_phi)) vec(XW_g) ,并采用更具表达性的 f。
- 通过泰勒展开近似成对核 f,以获得紧凑的表示(Eq. 12)。
- 实现分组的 CGNL 块,通过将通道分成 G 组来管理容量与优化。
- 在标准 CNN 主干中使用带有 CGNL 的残差式块结构(Eq. 13)。
- 比较核的选择(点积、嵌入高斯、高斯 RBF),并显示点积在实践中通常效果最好。
实验结果
研究问题
- RQ1跨通道(不仅仅是位置)建模长程依赖是否能提升对细粒度物体和动作的识别?
- RQ2紧凑的、泰勒展开的 CGNL 是否能在降低计算成本的同时提供与完整非本地相当的精度提升?
- RQ3通道分组如何影响 CGNL 块的优化与性能?
- RQ4哪种核函数在实际中最好地近似广义非本地交互?
- RQ5与标准 NL 块相比,CGNL 块是否在图像和视频任务(CUB、Mini-Kinetics、UCF101、COCO)上提升性能?
主要发现
- CGNL 在各任务上持续优于原始非本地块(例如细粒度分类与动作识别)。
- 点积核在评估的核中通常提供最佳性能。
- 通道分组可在达到最佳分组数时提升性能(例如在 Mini-Kinetics 上为 8 组),但分组过多会削弱跨通道相关性。
- 在添加数量相当的块时,CGNL 比 NL 块获得更大增益(如 1 个或 5 个块)。
- 在 ImageNet 上,添加 1 个 CGNL 块使 top-1 准确率相对于基线提升(如 R-50 从 76.15 提升至 77.69)。
- CGNL 块在将其添加到主干网络后,提升了 COCO 上的 Mask R-CNN 结果,相较于 NL 块。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。