Skip to main content
QUICK REVIEW

[论文解读] Non-local Neural Networks

Xiaolong Wang, Ross Girshick|arXiv (Cornell University)|Nov 21, 2017
Human Pose and Action Recognition参考文献 55被引用 147
一句话总结

引入非局部运算作为普适构建块,用以在视觉模型中捕捉长程依赖,在视频分类和 COCO 任务中显示出显著改进,竞争力十足的结果且不依赖繁琐的花哨设计。

ABSTRACT

Both convolutional and recurrent operations are building blocks that process one local neighborhood at a time. In this paper, we present non-local operations as a generic family of building blocks for capturing long-range dependencies. Inspired by the classical non-local means method in computer vision, our non-local operation computes the response at a position as a weighted sum of the features at all positions. This building block can be plugged into many computer vision architectures. On the task of video classification, even without any bells and whistles, our non-local models can compete or outperform current competition winners on both Kinetics and Charades datasets. In static image recognition, our non-local models improve object detection/segmentation and pose estimation on the COCO suite of tasks. Code is available at https://github.com/facebookresearch/video-nonlocal-net .

研究动机与目标

  • 在视觉任务中,动机是需要建模超越局部卷积和循环连接的长程依赖。
  • 提出一个通用的非局部操作,将响应计算为对所有位置的加权求和,以捕获全局上下文。
  • 证明非局部块在视频分类、目标检测/分割和姿态估计方面具有提升,并且计算开销适中。

提出的方法

  • 定义一个通用的非局部操作 y_i = (1/C(x)) ∑_j f(x_i, x_j) g(x_j),其中 f 测量成对关系,g 对位置 j 的输入进行嵌入。
  • 用 f 的变体(高斯、嵌入高斯、点积、连接)和 g(通过 1x1 或 1x1x1 卷积的线性嵌入)实例化非局部块。
  • 将该操作包装在残差非局部块 z_i = W_z y_i + x_i,以便于与预训练网络的无缝集成。
  • 采用瓶颈设计(在 W_g、W_theta、W_phi 中减少通道)以及可选下采样以降低计算。
  • 将非局部块并入到二维和膨胀三维卷积网络(C2D 与 I3D)的影视模型中,并在 COCO 的检测/分割和姿态估计任务上进行测试。

实验结果

研究问题

  • RQ1非局部算子是否可以直接在时空或时空域建模长程依赖,并且它们与传统的局部卷积或循环方法相比如何?
  • RQ2即使数量较少或在主干网络的不同阶段添加,非局部块是否高效且有益?
  • RQ3非局部块是否对视频模型中的 3D 卷积起到互补作用,并扩展到静态图像任务,如 COCO 的检测/分割和关键点估计?

主要发现

  • 在 2D 基线中添加单个非局部块可在 Kinetics 上带来约 1% 的提升。
  • 嵌入高斯、点积和连接变体表现相近,默认使用嵌入高斯以便解释。
  • 添加多个非局部块可获得进一步提升;例如,5块和10块配置在 Kinetics 上提高 top-1 准确率,时空非局部网络优于某些更深的基线。
  • 在时空(同时考虑空间和时间)中应用的非局部块比只在空间或时间的变体带来更大提升。
  • 非局部网络在 Kinetics/Charades 上超越 RGB I3D 基线,在某些设置中甚至比 3D 卷积更省 FLOPs。
  • 在 COCO 上,单个非局部块在各主干上提升 AP^box 与 AP^mask,计算开销较小,增加更多块的收益递减。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。