QUICK REVIEW

[論文レビュー] Global Second-order Pooling Convolutional Networks

Zilin Gao, Jiangtao Xie|arXiv (Cornell University)|Nov 29, 2018

Advanced Neural Network Applications参考文献 28被引用数 29

ひとこと要約

本稿では、深層畳み込みニューラルネットワークに複数の層にわたりグローバル2次統計（GSoP）ブロックを統合することで、包括的な2次統計を捉え、非線形表現学習を強化する、グローバル2次統計プーリング畳み込みネットワーク（GSoP-Net）を提案する。中間層の特徴マップにGSoPを適用し、学習された共分散行列をチャネルごとの特徴再スケーリングに用いることで、計算コストの増加を最小限に抑えながらImageNet-1KおよびCIFAR-100で最先端の性能を達成する。

ABSTRACT

Deep Convolutional Networks (ConvNets) are fundamental to, besides large-scale visual recognition, a lot of vision tasks. As the primary goal of the ConvNets is to characterize complex boundaries of thousands of classes in a high-dimensional space, it is critical to learn higher-order representations for enhancing non-linear modeling capability. Recently, Global Second-order Pooling (GSoP), plugged at the end of networks, has attracted increasing attentions, achieving much better performance than classical, first-order networks in a variety of vision tasks. However, how to effectively introduce higher-order representation in earlier layers for improving non-linear capability of ConvNets is still an open problem. In this paper, we propose a novel network model introducing GSoP across from lower to higher layers for exploiting holistic image information throughout a network. Given an input 3D tensor outputted by some previous convolutional layer, we perform GSoP to obtain a covariance matrix which, after nonlinear transformation, is used for tensor scaling along channel dimension. Similarly, we can perform GSoP along spatial dimension for tensor scaling as well. In this way, we can make full use of the second-order statistics of the holistic image throughout a network. The proposed networks are thoroughly evaluated on large-scale ImageNet-1K, and experiments have shown that they outperformed non-trivially the counterparts while achieving state-of-the-art results.

研究の動機と目的

既存の深層畳み込みニューラルネットワークがネットワークの終端でのみ2次統計を活用しているという制限を克服し、より早い層に高次統計モデリングを拡張することを目的とする。
グローバル2次統計プーリングにより長距離の統計的依存関係を捉えることで、深層ネットワークにおける非線形モデリング能力を向上させることを目的とする。
既存のアーキテクチャ（ResNet、Inception、DenseNetなど）に簡単に統合可能なモジュラで効率的なGSoPブロックを設計することを目的とする。
最初期の段階での2次統計の統合が、SE-Net や CBAM などの1次統計手法よりもより判別力のある表現をもたらすかどうかを実験的に検証することを目的とする。

提案手法

GSoPブロックは畳み込み層からの3次元特徴テンソルを入力とし、空間的およびチャネル次元にわたりグローバル2次統計プーリングを適用して共分散行列を計算する。
得られた共分散行列は1×1畳み込みと非線形活性化関数（ReLU）を経て埋め込みられ、チャネルごとの注目マップが生成される。
この注目マップを用いて、元の特徴テンソルをチャネル次元に沿ってスケーリングし、2次統計に基づく特徴再スケーリングを実現する。
本手法は空間的およびチャネル的両方向でのGSoPをサポートしており、ネットワーク内の複数の段階に柔軟に統合可能である。
ResNetベースのアーキテクチャでは、1つの残差ステージごとに1回のGSoPブロックを挿入し、パラメータ数およびFLOPsの増加を最小限に抑える。
標準的な最適化手法を用いてエンドツーエンドで学習を行い、ブロックの配置やハイパーパramータの感受性を分析するためのアブレーションスタディを実施する。

実験結果

リサーチクエスチョン

RQ1深層畳み込みニューラルネットワークの中間層にグローバル2次統計プーリングを統合することで、ネットワーク終端でのプーリングを超える表現学習の向上が達成できるか？
RQ21次統計（例：グローバル平均プーリング）と比較して、2次統計を初期および中間層で使用した場合の判別力の違いは何か？
RQ3ネットワーク内の異なる深さにGSoPブロックを配置した場合、最終的な精度および特徴品質に与える影響は何か？
RQ4SE-Net や CBAM などの既存の注目メカニズムと比較して、提案されたGSoPブロックは長距離の文脈的依存関係をどれほど効果的に捉えられるか？

主な発見

ImageNet-1Kでは、GSoP-Net2のトップ-1誤差率は20.94%に達し、SE-Net（21.31%）およびCBAMを顕著な差で上回った。
GSoP-Net2は、ネットワーク終端での共分散プーリングを用いる強力なSOTAベースラインiSQRT-COVを、トップ-1誤差率で1.36ポイント上回った。
CIFAR-100では、GSoP-Net2は誤差率を18.58%まで低下させ、アンサンブルなしのvanilla ResNet-164ベースラインより5.75%の改善を達成し、iSQRT-COVを1.37%上回った。
アブレーションスタディの結果、初期段階にGSoPブロックを挿入することで性能が顕著に向上し、わずか4つのブロックで顕著な向上が得られた。
提案されたGSoPブロックは非常にモジュラーであり、計算コストも最小限に抑えられており、ImageNetでのGSoP-Net2ではパラメータ数が360万、FLOPsが0.58 GFLOPsにとどまった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。