Skip to main content
QUICK REVIEW

[論文レビュー] Adaptive Deep Pyramid Matching for Remote Sensing Scene Classification

Qingshan Liu, Renlong Hang|arXiv (Cornell University)|Nov 11, 2016
Remote-Sensing Image Classification参考文献 2被引用数 23
ひとこと要約

本稿では、データ駆動的な重みを用いてすべての畳み込み層からの特徴を適応的に融合し、空間スケールプールリングを介してマルチスケール入力を統合する、リモートセンシングシーン分類のための新しいCNNベースの手法であるAdaptive Deep Pyramid Matching (ADPM)を提案する。この手法は最先端の性能を達成し、19クラスの衛星シーンデータセットで84.67%の正確度を達成し、従来手法よりも最大8%優れている。

ABSTRACT

Convolutional neural networks (CNNs) have attracted increasing attention in the remote sensing community. Most CNNs only take the last fully-connected layers as features for the classification of remotely sensed images, discarding the other convolutional layer features which may also be helpful for classification purposes. In this paper, we propose a new adaptive deep pyramid matching (ADPM) model that takes advantage of the features from all of the convolutional layers for remote sensing image classification. To this end, the optimal fusing weights for different convolutional layers are learned from the data itself. In remotely sensed scenes, the objects of interest exhibit different scales in distinct scenes, and even a single scene may contain objects with different sizes. To address this issue, we select the CNN with spatial pyramid pooling (SPP-net) as the basic deep network, and further construct a multi-scale ADPM model to learn complementary information from multi-scale images. Our experiments have been conducted using two widely used remote sensing image databases, and the results show that the proposed method significantly improves the performance when compared to other state-of-the-art methods.

研究の動機と目的

  • 最終全結合層の特徴のみを用いる従来のCNNの限界、すなわち有用な初期畳み込み特徴が無視される問題に対処する。
  • CNNにおける固定入力サイズの問題に対処する。これは、リモートセンシング画像における判別力のあるマルチスケール情報の損失を引き起こす可能性がある。
  • データ駆動的な適応によって、すべての畳み込み層の特徴の最適融合重みを学習することで、分類性能を向上させる。
  • マルチスケールアンサンブル戦略を通じて、複数の入力スケールからの補完的特徴を統合することで、特徴表現を強化する。
  • 最先端のアプローチと比較して、広く用いられるリモートセンシングデータセットにおいて、提案手法の優位性を検証する。

提案手法

  • 本手法は、すべての層からの階層的畳み込み特徴を抽出するため、事前学習済みのSPP-netをバックボーンネットワークとして採用する。
  • 固定値やヒューリスティック値ではなく、データから直接学習する最適な融合重みを導入する、適応的統合メカニズムを提案する。
  • 空間ピラミッドプールリング(SPP)モジュールを用いて、各畳み込み層からのマルチスケール特徴を抽出し、スケール変動に対してロバストにする。
  • 複数の入力スケール(227×227、256×256、384×384)を用いてマルチスケール特徴表現を生成し、多数決投票により結果を統合する。
  • 異なる空間解像度および畳み込み層間の特徴を効果的に統合するために、ピラミッドマッチングカーネルを適用する。
  • 最終的な分類は、融合されたマルチスケール・マルチレイヤー特徴に対して線形SVMを用い、最適な性能を得るためにエンド・ツー・エンドの学習を実施する。

実験結果

リサーチクエスチョン

  • RQ1CNNのすべての畳み込み層からの特徴を適応的に統合することで、最終全結合層の特徴のみを用いる従来手法よりも、リモートセンシングシーン分類の性能が向上するか?
  • RQ2提案されたADPMモデルの性能は、標準的なリモートセンシングシーン分類ベンチマークにおいて、最先端の手法と比較してどうなるか?
  • RQ3適応的統合重みを用いた場合、個々の畳み込み層が最終分類に果たす寄与度はどの程度か?
  • RQ4単一スケール入力と比較して、複数の入力スケールからの特徴統合が分類正確度を顕著に向上させるか?
  • RQ5提案されたマルチスケールADPMモデルは、物体サイズや空間配置が異なる多様なリモートセンシングシーンに一般化して適応できるか?

主な発見

  • マルチスケールADPMモデルは、19クラスの衛星シーンデータセットで84.67%の分類正確度を達成し、最高の既存手法(SCMF)を6.35ポイント上回った。
  • シングルスケールADPMモデル(例:ADPM-256は83.71%)ですら、すべての従来の最先端手法を上回っており、SCMF(78.32%)やSSEP(73.82%)を凌駕している。
  • 初期層(例:conv1)の寄与度は最小限であり、エッジなどの低レベルパターンしか捉えていないのに対し、深層層(例:conv5)の寄与度が顕著に高い。
  • 適応的統合メカニズムは意味のある重みを学習する:conv4が最も高い重みを示し、conv3はconv4と特徴の重複があるため寄与度が低い。
  • マルチスケールADPMは、シングルスケールバージョンよりも一貫して性能が向上し、256×256入力が最も良いシングルスケール結果を示し、複数スケールの統合により正確度がさらに向上した。
  • 本手法はクラス全体にわたりロバストであることが示され、特に住宅地やバイアドクトなど困難なクラスの性能向上が顕著に見られた(クラス別正確度比較による)。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。