QUICK REVIEW

[論文レビュー] Towards Faster Training of Global Covariance Pooling Networks by Iterative Matrix Square Root Normalization

Peihua Li, Jiangtao Xie|arXiv (Cornell University)|Dec 4, 2017

Advanced Neural Network Applications参考文献 24被引用数 20

ひとこと要約

本稿では、ニュートン＝シュルツ反復を用いた反復的行列平方根正規化により、グローバルコバリアンスプーリングネットワークの高速エンドツーエンド学習手法iSQRT-COVを提案する。前向きおよび逆伝搬の両方で、計算コストの高い固有値分解（EIG）や特異値分解（SVD）の代わりに行列乗算を用いることで、GPU並列処理が効率的に行えるようになり、ImageNetおよび細分化ベンチマークで、EIG/SVDベースの手法と比較してより高速な収束と優れた精度を達成する、最先端の性能を発揮する。

ABSTRACT

Global covariance pooling in convolutional neural networks has achieved impressive improvement over the classical first-order pooling. Recent works have shown matrix square root normalization plays a central role in achieving state-of-the-art performance. However, existing methods depend heavily on eigendecomposition (EIG) or singular value decomposition (SVD), suffering from inefficient training due to limited support of EIG and SVD on GPU. Towards addressing this problem, we propose an iterative matrix square root normalization method for fast end-to-end training of global covariance pooling networks. At the core of our method is a meta-layer designed with loop-embedded directed graph structure. The meta-layer consists of three consecutive nonlinear structured layers, which perform pre-normalization, coupled matrix iteration and post-compensation, respectively. Our method is much faster than EIG or SVD based ones, since it involves only matrix multiplications, suitable for parallel implementation on GPU. Moreover, the proposed network with ResNet architecture can converge in much less epochs, further accelerating network training. On large-scale ImageNet, we achieve competitive performance superior to existing counterparts. By finetuning our models pre-trained on ImageNet, we establish state-of-the-art results on three challenging fine-grained benchmarks. The source code and network models will be available at http://www.peihuali.org/iSQRT-COV

研究の動機と目的

グローバルコバリアンスプーリングネットワークが行列平方根計算に使用するGPU非効率な固有値分解（EIG）や特異値分解（SVD）に起因する非効率性を解消すること。
EIG/SVDの代わりに並列処理に適した反復的手法を用いることで、コバリアンスプーリングネットワークの高速かつエンドツーエンド学習を可能にすること。
ループ埋め込み型有向グラフ構造を持つメタレイヤーを設計し、ResNetのような深層ネットワークにおける収束性と性能を保証すること。
事前学習済みのiSQRT-COVモデルを用いて、大規模および細分化視覚認識ベンチマークで最先端の性能を達成すること。
2次統計を用いたプーリングと反復的行列平方根正規化が、1次統計プーリングおよび既存の2次統計手法を上回ることを示すこと。

提案手法

本手法は、前処理正規化、結合ニュートン＝シュルツ反復、および後処理補正を順次実行する、ループ埋め込み型有向グラフ構造を持つメタレイヤーを導入する。
Frobeniusノルムまたはトレースによる前処理正規化により、行列平方根計算におけるニュートン＝シュルツ反復の収束を保証する。
ニュートン＝シュルツ反復は前向きおよび逆伝搬の両方で使用され、行列バックプロパゲーション理論を用いて勾配が導出される。
反復処理後に後処理補正を適用することで、表現品質を維持し、ResNetのような深層アーキテクチャにおける最終的な性能を向上させる。
この全プロセスは行列乗算のみに依存しており、GPUハードウェア上で非常に並列処理可能で効率的である。
本手法はResNetベースのネットワークに統合可能であり、大規模（ImageNet）および小規模（細分化）の学習を両方サポートする。

実験結果

リサーチクエスチョン

RQ1ニュートン＝シュルツ反復による反復的行列平方根正規化が、EIG/SVDを置き換えることで、より高速でGPUネイティブな学習を可能にするか？
RQ2前処理正規化および後処理補正を備えた提案されたメタレイヤーが、ResNetのような深層ネットワークにおいて収束性と高い性能を保証するか？
RQ3iSQRT-COVは、EIG/SVDベースの手法と比較して著しく高速である一方で、大規模なImageNetおよび細分化ベンチマークで最先端の性能を達成できるか？
RQ4KP、CBP、G2-DeNetといった既存の2次統計プーリング手法と比較して、iSQRT-COVの精度および表現次元数の観点での性能はどの程度か？
RQ5iSQRT-COVにおける2次統計の使用が、細分化視覚分類の転移学習において1次統計プーリングをどれほど上回るか？

主な発見

iSQRT-COVは、Birds、Aircrafts、Carsの細分化ベンチマークで、KP、CBP、G2-DeNetを含むすべての先行手法を上回る最先端の精度を達成した。
ResNet-50を用いると、iSQRT-COV（8K）はBirdsで87.3%、Aircraftsで89.5%、Carsで91.7%の精度を達成し、KP（14K）をそれぞれ2.6%、3.8%、0.6%上回った。
ResNet-101を用いると、iSQRT-COVは88.7%、91.4%、93.3%の精度を達成し、3つの細分化データセットすべてで新たな最先端結果を樹立した。
ImageNetでは、ResNet-50を用いたiSQRT-COVが競争力のあるトップ-1精度を達成し、優れた一般化性能と転送可能性を示した。
EIG/SVDベースの手法と比較して、効率的なGPU並列処理が可能な行列乗算により、はるかに少ないエポック数で収束した。
2K次元に圧縮された場合でも、iSQRT-COVは23.73%の誤差率を維持し、グローバル平均プーリングを用いた標準的なResNet-50を上回った。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。