QUICK REVIEW

[論文レビュー] How Much Position Information Do Convolutional Neural Networks Encode?

Amirul Islam, Sen Jia|arXiv (Cornell University)|Jan 22, 2020

Advanced Neural Network Applications参考文献 25被引用数 93

ひとこと要約

この論文は、絶対的位置情報がCNNの特徴マップに暗黙のうちにエンコードされていることを示し、ネットワークがオブジェクト認識のみで訓練された場合でも、パディングとネットワーク深さがこの位置情報エンコーディングにどのように寄与するかを分析する。

ABSTRACT

In contrast to fully connected networks, Convolutional Neural Networks (CNNs) achieve efficiency by learning weights associated with local filters with a finite spatial extent. An implication of this is that a filter may know what it is looking at, but not where it is positioned in the image. Information concerning absolute position is inherently useful, and it is reasonable to assume that deep CNNs may implicitly learn to encode this information if there is a means to do so. In this paper, we test this hypothesis revealing the surprising degree of absolute position information that is encoded in commonly used neural networks. A comprehensive set of experiments show the validity of this hypothesis and shed light on how and where this information is represented while offering clues to where positional information is derived from in deep CNNs.

研究の動機と目的

CNNが学習済みの特徴マップに絶対位置情報をエンコードしているかを調査する。
合成の真の位置マップを用いて事前学習済みCNNの位置情報を定量化する。
パディングとネットワークアーキテクチャが位置情報のエンコーディングにどのように影響するかを分析する。
CNNのどの層がより多くの位置情報を保持し、この情報の読み出しをどのように改善できるかを判断する。

提案手法

ImageNetで事前学習済みのエンコーダネットワークを凍結する（例：VGG16、ResNet）。
マルチスケール特徴を読み取り、勾配のような位置マップ hat(fp) を出力する軽量な位置エンコーディングモジュール（PosENet）を追加する。
ピクセル単位の平均二乗誤差に対して、合成の真の位置マップ（H: 水平方向グラデーション、V: 垂直方向グラデーション、G: ガウス、HS/VS: ストライプ）に対してPosENetを訓練する。
自然データセットと合成データセットで、スピアマン相関（SPC）と平均絶対誤差（MAE）を用いて位置読み出し能力を評価する。
層、カーネルサイズ、パディングのアブレーションを行い、位置情報がどのように格納され、どのように読み出されるかを理解する。

実験結果

リサーチクエスチョン

RQ1物体認識の訓練を受けたCNNは、特徴マップに絶対的な位置情報を暗黙のうちにエンコードしているのか？
RQ2事前学習済みCNNの特徴から読み出しネットワークが絶対位置情報をどれだけ容易に抽出できるか？
RQ3ネットワーク深度、カーネルサイズ、パディングは位置情報のエンコードと抽出にどんな役割を果たすのか？
RQ4事前学習済みCNNのどの層がより多くの位置情報を保持し、意味内容がこのエンコードにどのように影響するか？

主な発見

位置情報は一般的に使用されるCNNに頑健にエンコードされ、凍結されたエンコーダの上に訓練された軽量な読み出し（PosENet）によって抽出できる。
ResNetベースの読み出しはVGGベースのものよりも絶対位置の回復に優れており、深い/より意味的な表現が位置情報のエンコードに役立つことを示す。
より大きい受容野（大きいカーネルサイズ）と深い読み出しは位置情報の抽出を改善する。
境界のゼロパディングは位置情報の重要な源であり、パディングを削除すると読み出し性能が低下し、パディングを追加すると性能が向上する。
位置情報は深いエンコーダ特徴（fpos5）の方が浅い層（fpos1）よりも強く、高レベルの特徴がより多くの空間的手がかりを保持していることを示唆している。
タスクに意味内容が関与する場合（サリエンシー、セグメンテーション）の場合、ゼロパディングは位置的手がかりに影響を与え続け、分類以外の事前学習タスクで強化され得る。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。