QUICK REVIEW

[論文レビュー] Non-local Neural Networks

Xiaolong Wang, Ross Girshick|arXiv (Cornell University)|Nov 21, 2017

Human Pose and Action Recognition参考文献 55被引用数 147

ひとこと要約

非局所演算を長距離依存性を捉える汎用ビルディングブロックとして紹介し、ビデオ分類と COCO タスクで強力な改善を示し、派手な機能を使わずに最先端と競合する結果を得ている。

ABSTRACT

Both convolutional and recurrent operations are building blocks that process one local neighborhood at a time. In this paper, we present non-local operations as a generic family of building blocks for capturing long-range dependencies. Inspired by the classical non-local means method in computer vision, our non-local operation computes the response at a position as a weighted sum of the features at all positions. This building block can be plugged into many computer vision architectures. On the task of video classification, even without any bells and whistles, our non-local models can compete or outperform current competition winners on both Kinetics and Charades datasets. In static image recognition, our non-local models improve object detection/segmentation and pose estimation on the COCO suite of tasks. Code is available at https://github.com/facebookresearch/video-nonlocal-net .

研究の動機と目的

視覚タスクにおける局所畳み込みおよび再帰接続を超えた長距離依存性のモデリングの必要性を動機づける。
応答をすべての位置の重み付き和として計算し、全体的な文脈を捉える汎用非局所演算を提案する。
非局所ブロックが、モデレーションされた計算オーバーヘッドでビデオ分類、物体検出/セグメンテーション、姿勢推定を改善できることを示す。

提案手法

y_i = (1/C(x)) sum_j f(x_i, x_j) g(x_j) が、f が組み合わせ関係を測定し、g が位置 j における入力を埋め込むことを定義する。
f の変種（Gaussian、embedded Gaussian、dot-product、concatenation）および g（1x1 または 1x1x1 畳み込みによる線形埋め込み）の非局_locブロックを具体化する。
操作を残差非局所ブロック z_i = W_z y_i + x_i に包み込み、事前学習済みネットワークへの容易な統合を可能にする。
計算を減らすためにボトルネック設計（W_g、W_theta、W_phi のチャネルを縮小）およびオプションのサブサンプリングを使用する。
ビデオモデルのために 2D および膨張 3D CNNs（C2D および I3D）に非局所ブロックを組み込み、COCO の検出/セグメンテーションおよびキーポイント推定でテストする。

実験結果

リサーチクエスチョン

RQ1非局所演算子は空間、時間、または時空の長距離依存性を直接モデル化できるか、従来の局所畳み込みや再帰的アプローチとどう比較されるか？
RQ2バックボーンに少数を追加した場合や異なる段階で加えた場合でも、非局所ブロックは効率的かつ有益か？
RQ3非局所ブロックはビデオモデルの 3D 畳み込みを補完し、COCO の検出/セグメンテーションやキーポイント推定のような静的画像タスクにも拡張できるか？

主な発見

単一の非局所ブロックを 2D ベースラインに追加するだけで、Kinetics の約 1% の改善を達成。
Embedded Gaussian、dot-product、concatenation の変種は類似の性能を示し、解釈性のためにデフォルトで embedded Gaussian を使用。
複数の非局所ブロックを追加するとさらなる利得が得られ；例えば 5 ブロックおよび 10 ブロックの構成は Kinetics の top-1 精度を改善し、時空間非局所ネットはより深いベースラインよりも優れている。
時空間（空間と時間を同時に）で適用された非局所ブロックは、空間のみまたは時間のみの変種よりも大きな利得をもたらす。
非局所ネットは Kinetics/Charades で RGB I3D ベースラインを上回り、いくつかの設定で 3D 畳み込みよりも FLOP 効率が良い場合がある。
COCO では単一の非局所ブロックがバックボーン全体で AP^box および AP^mask を改善し、計算オーバーヘッドは小さく、追加ブロックは収益の低減を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。