[論文レビュー] Compact Generalized Non-local Network
CGNL は非局所ネットワークを拡張し、コンパクトな Taylor ベースの近似によるクロスチャネル位置相互作用をモデル化し、複数のデータセットにおける細分類とアクション認識の性能を向上させる。
The non-local module is designed for capturing long-range spatio-temporal dependencies in images and videos. Although having shown excellent performance, it lacks the mechanism to model the interactions between positions across channels, which are of vital importance in recognizing fine-grained objects and actions. To address this limitation, we generalize the non-local module and take the correlations between the positions of any two channels into account. This extension utilizes the compact representation for multiple kernel functions with Taylor expansion that makes the generalized non-local module in a fast and low-complexity computation flow. Moreover, we implement our generalized non-local method within channel groups to ease the optimization. Experimental results illustrate the clear-cut improvements and practical applicability of the generalized non-local module on both fine-grained object recognition and video classification. Code is available at: https://github.com/KaiyuYue/cgnl-network.pytorch.
研究の動機と目的
- チャンネル間の位置間の相互作用をモデリングして細分化認識を改善する動機付け。
- 効率性のための Taylor-series ベースのカーネル近似を用いたコンパクトな generalized non-local (CGNL) モジュールを提案。
- 最適化とスケーラビリティを容易にするためのチャネルグルーピングを取り入れる。
- 細分類とアクション認識タスクで CGNL の有効性を示す。
- 元の non-local ブロックやベースラインと比較した CGNL の洞察とアブレーションを提供する。
提案手法
- 非局所演算を一般化して、チャネル間の任意の位置の相関をモデル化する(Eq. 8)。
- 非局所計算を vec(Y)=f(vec(XW_theta),vec(XW_phi)) vec(XW_g) に書き換え、より表現力のある f を用いる。
- ペアワイズカーネル f を Taylor 展開で近似し、コンパクトな表現を得る(Eq. 12)。
- G グループにチャネルを分割して容量と最適化を管理するグループ化 CGNL ブロックを実装する。
- 標準的な CNN バックボーン内に CGNL を組み込んだ残差風ブロック構造を用いる(Eq. 13)。
- カーネル選択(ドット積、埋め込みガウス、ガウス RBF)を比較し、実践的にはドット積が最良になることが多い。
実験結果
リサーチクエスチョン
- RQ1チャネルを跨ぐ長距離依存性をモデル化することは、細部認識される物体や動作の認識を改善するか?
- RQ2Taylor-expanded な CGNL は、同等のブロック数で NL 全体と同程度の精度向上を、計算コストを削減しつつ提供できるか?
- RQ3チャネルグルーピングは CGNL ブロックの最適化と性能にどう影響するか?
- RQ4どのカーネル関数が実践的に generalized non-local 相互作用を最もよく近似するか?
- RQ5CGNL ブロックは標準 NL ブロックと比較して画像および動画タスク(CUB, Mini-Kinetics, UCF101, COCO)で性能を向上させるか?
主な発見
| Dataset | Model | Top1 | Top5 |
|---|---|---|---|
| Mini-Kinetics | R-50 | 75.54 | 92.16 |
| Mini-Kinetics | +1 NL block | 76.53 | 92.90 |
| Mini-Kinetics | +1 CGNL block | 77.76 | 93.18 |
| Mini-Kinetics | +5 NL block | 77.53 | 94.00 |
| Mini-Kinetics | +5 CGNL block | 78.79 | 94.37 |
| UCF-101 | R-50 | 81.62 | 94.62 |
| UCF-101 | +1 NL block | 82.88 | 95.74 |
| UCF-101 | +1 CGNL block | 83.38 | 95.42 |
| UCF-101 | +5 NL block | 79.21 | 93.21 |
| UCF-101 | +5 CGNL block | 79.88 | 93.37 |
| CUB-R50 | R-50 | 84.05 | 96.00 |
| CUB-R50 | +1 NL block | 84.79 | 96.76 |
| CUB-R50 | +1 CGNL block | 85.14 | 96.88 |
| CUB-R50 | +5 NL block | 85.10 | 96.18 |
| CUB-R50 | +5 CGNL block | 85.68 | 96.69 |
- CGNL は、元の non-local ブロックを跨ぐタスクで一貫して改善を示す(例:細分類とアクション認識)。
- ドット積カーネルは評価されたカーネルの中で CGNL のパフォーマンスを最もよく発揮することが多い。
- チャネルグルーピングは最適なグループ数(例:Mini-Kinetics で 8 グループ)まで性能を向上させるが、グループ数が多すぎるとチャネル間相関が阻害される。
- CGNL は、比較的同数のブロックを追加した場合 NL ブロックより大きな利得を得る。
- ImageNet では、1 つの CGNL ブロックを追加するとベースライン対でトップ1 精度が向上(例:R-50 が 76.15 から 77.69 へ)。
- CGNL ブロックは、バックボーンに追加した際 COCO の Mask R-CNN 結果を NL ブロックより改善。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。