Skip to main content
QUICK REVIEW

[論文レビュー] Why do deep convolutional networks generalize so poorly to small image transformations?

Aharon Azulay, Yair Weiss|arXiv (Cornell University)|May 30, 2018
Domain Adaptation and Few-Shot Learning被引用数 299
ひとこと要約

本論文は、現代のCNNが1ピクセルの移動やスケーリングのような極めて小さな画像変形に脆弱であることを定量化し、畳み込みアーキテクチャとデータ拡張が不変性を保証しない理由を分析し、アンチエイリアシングやより多くのデータ拡張といった部分的な解決策を提案する。

ABSTRACT

Convolutional Neural Networks (CNNs) are commonly assumed to be invariant to small image transformations: either because of the convolutional architecture or because they were trained using data augmentation. Recently, several authors have shown that this is not the case: small translations or rescalings of the input image can drastically change the network's prediction. In this paper, we quantify this phenomena and ask why neither the convolutional architecture nor data augmentation are sufficient to achieve the desired invariance. Specifically, we show that the convolutional architecture does not give invariance since architectures ignore the classical sampling theorem, and data augmentation does not give invariance because the CNNs learn to be invariant to transformations only for images that are very similar to typical images from the training set. We discuss two possible solutions to this problem: (1) antialiasing the intermediate representations and (2) increasing data augmentation and show that they provide only a partial solution at best. Taken together, our results indicate that the problem of insuring invariance to small image transformations in neural networks while preserving high accuracy remains unsolved.

研究の動機と目的

  • 現代のCNNが小さな画像の変形に対して不変性を欠く程度を定量化する。
  • アーキテクチャの選択(畳み込み、サブサンプリング)とデータ拡張が脆弱性にどう寄与するかを調査する。
  • シフト不変性が現在のCNN設計や学習実践によって保証されていない理由を説明する。
  • アンチエイリアシングやデータ拡張の増加など提案された解決策を評価し、その効果を検討する。

提案手法

  • 1000個のImageNet検証画像に対して、1ピクセル差を生じさせる4つの摂動プロトコル(クロップ、黒背景での埋め込み、インペインティングを用いた埋め込み、サイズ変更による埋め込み)を検証した。
  • 2つの不変性を測定した: (i) P(Top-1変更) および (ii) Topクラス確率の平均絶対変化(MAC)。
  • Keras由来3モデル(VGG16, ResNet50, InceptionResNetV2)とPyTorch由来3モデル(VGG16, ResNet50, DenseNet121)を比較した。
  • 中間層で読み出し分類器を訓練し、一ピクセル移動の効果を評価することで、レイヤ深度がシフト可能性に与える影響を分析した。
  • CNNのサブサンプリングと非線形性に適用されるサンプリング、シフト可能性、シャノン-ニクイスト定理についての理論的議論を提示した。
  • 提案された解決策の評価:内部表現のアンチエイリアシングと拡張データ拡張の拡充。

実験結果

リサーチクエスチョン

  • RQ1小さな画像変換がCNNの予測をどのくらい頻繁に変えるのか、アーキテクチャや摂動プロトコルによってどのように変化するのか?
  • RQ2畳み込みアーキテクチャとデータ拡張が、小さな平行移動やリスケーリングに対して不変性を保証できないのはなぜか?
  • RQ3CNNにおけるサブサンプリング(ストライド)とサンプリング定理が、シフト不変性を生み出すのか崩すのかの役割は?
  • RQ4アンチエイリアシングと拡張データ拡張は意味のある不変性の改善をもたらすのか、どの程度まで?
  • RQ5訓練データに対する画像の典型性は、CNNの小さな変換に対する脆弱性にどのように影響するか?

主な発見

  • 1ピクセルの摂動でCNNのトップ1予測が約30%の確率で変わる。
  • 不変性の欠如は、複数のアーキテクチャとKerasおよびPyTorchの事前学習モデルの双方で観察される。
  • 平行移動不変性は保証されない。サブサンプリング(ストライド)が文字通りのシフト可能性を破るためで、シフト不変なグローバルプーリングにはシフト可能な特徴マップとNyquist基準に従った適切なサンプリングが必要。
  • CNNは訓練データに非常に類似した画像に対してのみ不変性を学習する。写真家の偏りから外れた画像では、小さな変換に対する感度が高まる。
  • 中間表現のアンチエイリアシングは部分的な改善にとどまり、データ拡張の増加は助けになるが問題を完全には解決せず、特に非典型的な画像に対しては効果が限定的。
  • 層が深くなるにつれてサブサンプリングと非線形性が累積してシフト可能性が低下し、深さが増すほど小さな平行移動に対する脆弱性が高まる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。