Skip to main content
QUICK REVIEW

[論文レビュー] Quantifying Translation-Invariance in Convolutional Neural Networks

Eric Kauderer-Abrams|arXiv (Cornell University)|Dec 10, 2017
Advanced Neural Network Applications参考文献 8被引用数 81
ひとこと要約

本論文は翻訳感度マップを導入し、CNNの翻訳不変性を定量化する。データ拡張が不変性の主要因であり、アーキテクチャは二次的な役割を果たすことを示す。

ABSTRACT

A fundamental problem in object recognition is the development of image representations that are invariant to common transformations such as translation, rotation, and small deformations. There are multiple hypotheses regarding the source of translation invariance in CNNs. One idea is that translation invariance is due to the increasing receptive field size of neurons in successive convolution layers. Another possibility is that invariance is due to the pooling operation. We develop a simple a tool, the translation-sensitivity map, which we use to visualize and quantify the translation-invariance of various architectures. We obtain the surprising result that architectural choices such as the number of pooling layers and the convolution filter size have only a secondary effect on the translation-invariance of a network. Our analysis identifies training data augmentation as the most important factor in obtaining translation-invariant representations of images using convolutional neural networks.

研究の動機と目的

  • CNNの翻訳不変性を可視化し定量化するツールを開発する。
  • 深さ、プーリング、フィルターサイズといったアーキテクチャの選択が翻訳不変性にどのように影響するかを評価する。
  • 学習データのデータ拡張が翻訳不変性に与える影響を評価する。
  • 翻訳不変性に関して異なるCNNアーキテクチャを比較するための定量的指標を提供する。

提案手法

  • 入力の平行移動に対する出力の変化を可視化するために翻訳感度マップを導入する。
  • 基底入力と翻訳入力のスコア空間における正規化距離を定義する。
  • 1次元の要約として放射状の翻訳感度関数を計算する。
  • データ拡張の有無でMNIST上の複数のCNNアーキテクチャを訓練する。
  • Adam最適化とクロスエントロピーロスを用いてネットワークを訓練し、テストデータで評価する。
  • 平均化された翻訳感度マップを用いて翻訳不変性でネットワークを比較する。

実験結果

リサーチクエスチョン

  • RQ1CNN表現はどの程度翻訳不変であるか?
  • RQ2CNNのどの特徴(アーキテクチャ対学習データ)が翻訳不変性を最も決定づけるか?
  • RQ3畳み込み層・プーリング層の数の違いは翻訳不変性にどう影響するか?
  • RQ4訓練時の入力翻訳拡張はアーキテクチャの変更よりも翻訳不変性を高めるか?

主な発見

  • データ拡張は翻訳不変性表現を達成する上で最も重要な要因である。
  • 拡張データで訓練されたネットワークは、拡張なしで訓練されたものより著しく翻訳不変性が高い。
  • アーキテクチャの特徴(畳み込み/プーリング層の数、フィルターサイズ)は拡張と比べて二次的な役割を果たす。
  • より深いネットワークと大きなフィルターサイズは不変性を改善できるが、この利点は拡張訓練データに依存する。
  • 翻訳不変性はCNNアーキテクチャに固有のものではなく、データの変動から学習可能である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。