QUICK REVIEW

[論文レビュー] Pooling is neither necessary nor sufficient for appropriate deformation stability in CNNs

Avraham Ruderman, Neil C. Rabinowitz|arXiv (Cornell University)|Apr 12, 2018

Adversarial Robustness in Machine Learning被引用数 25

ひとこと要約

この論文は、畳み込みニューラルネットワーク（CNN）における変形安定性のためにはプーリング層が不可欠であるという長年の仮定に挑戦する。訓練中に学習されたフィルタの滑らかさによって変形安定性が生じるのではなく、プーリングによって生じるのではなく、むしろプーリングはネットワークが後に是正しなければならない過剰な不変性を導入する。したがって、プーリングは画像分類における最適な安定性を達成するのに必要でも十分でもない。

ABSTRACT

Many of our core assumptions about how neural networks operate remain empirically untested. One common assumption is that convolutional neural networks need to be stable to small translations and deformations to solve image recognition tasks. For many years, this stability was baked into CNN architectures by incorporating interleaved pooling layers. Recently, however, interleaved pooling has largely been abandoned. This raises a number of questions: Are our intuitions about deformation stability right at all? Is it important? Is pooling necessary for deformation invariance? If not, how is deformation invariance achieved in its absence? In this work, we rigorously test these questions, and find that deformation stability in convolutional networks is more nuanced than it first appears: (1) Deformation invariance is not a binary property, but rather that different tasks require different degrees of deformation stability at different layers. (2) Deformation stability is not a fixed property of a network and is heavily adjusted over the course of training, largely through the smoothness of the convolutional filters. (3) Interleaved pooling layers are neither necessary nor sufficient for achieving the optimal form of deformation stability for natural image classification. (4) Pooling confers too much deformation stability for image classification at initialization, and during training, networks have to learn to counteract this inductive bias. Together, these findings provide new insights into the role of interleaved pooling and deformation invariance in CNNs, and demonstrate the importance of rigorous empirical testing of even our most basic assumptions about the working of neural networks.

研究の動機と目的

プーリングが画像分類タスクにおける変形安定性に必要または十分であるかどうかを実証的に検証すること。
プーリング層を有する・なしの両方のネットワークにおいて、訓練中に変形安定性がどのように生じるかを調査すること。
プーリングの誘導的バイアスが画像分類タスクにおける最適な変形安定性を高めるか、妨げるかを特定すること。
プーリングとは独立して、フィルタの滑らかさが変形安定性にどのように寄与するかを検討すること。
入力とラベルの同時分布が、層ごとの変形安定性の最終的パターンにどのように影響するかを分析すること。

提案手法

アフィン変換やスプライン変形を含む、パラメトリックで制御可能な画像変形のクラスを設計し、ネットワークの応答を調査した。
CIFAR-10およびImageNetで、中間のプーリング層を有する・なしのCNNを訓練し、初期化時および完全訓練後の変形感受性を測定した。
変形安定性を、ネットワークアーキテクチャおよび層ごとの入力変形に対する応答変化の平均として定量化した。
ガウスフィルタを用いた畳み込みカーネルの平滑化によりフィルタの滑らかさを測定し、滑らかさと変形安定性の相関を分析した。
タスク構造（P(Y|X)）とデータ分布（P(X)）の影響を分離するために、ランダムラベルでネットワークを訓練した。
アーキテクチャおよび訓練条件を変えて、層ごとの変形安定性とフィルタの滑らかさを比較し、収束パターンを同定した。

実験結果

リサーチクエスチョン

RQ1画像分類タスクで訓練されたCNNにおいて、プーリングは変形安定性に必要か？
RQ2画像認識において最適な変形安定性を達成するために、プーリングは十分か？
RQ3プーリングあり・なしのネットワークにおいて、変形安定性は訓練プロセス中にどのように変化するか？
RQ4プーリングが存在しない状況で、フィルタの滑らかさが変形安定性にどの程度寄与するか？
RQ5入力データ分布と教師ありタスク（ラベル構造）が、学習された変形安定性のパターンにどのように共同で影響を与えるか？

主な発見

プーリングなしのネットワークは初期化時に変形に対して感受性が高かったが、訓練中にフィルタの滑らかさによって変形安定性を学習した。
中間のプーリング層を有するネットワークは初期化時に過剰な変形安定性を示したが、訓練中にそれを是正する必要があり、これはプーリングの誘導的バイアスが画像分類タスクには強すぎるということを示している。
アーキテクチャにかかわらず、プーリングあり・なしの両方のネットワークにおいて、層ごとの変形安定性の最終的パターンは類似した構造に収束した。
フィルタの滑らかさは変形安定性の主な駆動要因であり、滑らかなフィルタを有するネットワークは変形に対してより高い不変性を示した。
ランダムラベルで訓練した場合（タスク構造なし）、変形安定性のパターンはアーキテクチャの誘導的バイアスに支配されたが、実際のタスクではタスク構造がアーキテクチャ固有のバイアスを上回った。
入力とラベルの同時分布（P(X,Y)）が最終的な変形安定性パターンを決定づけることが示され、教師ありタスク自体が安定性の主要要因であることがわかった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。