QUICK REVIEW

[論文レビュー] Land Use Classification in Remote Sensing Images by Convolutional Neural Networks

Marco Castelluccio, Giovanni Poggi|arXiv (Cornell University)|Aug 1, 2015

Remote-Sensing Image Classification参考文献 41被引用数 484

ひとこと要約

本稿では、リモートセンシング画像における土地利用分類に、事前学習済みおよび微調整済み畳み込みニューラルネットワーク（CNN）を用いる手法を提案し、最先端の手法と比較して顕著な性能向上を示している。UC-Mercedデータセットでは、最も優れた先行研究と比較して3%の向上を達成し、ブラジルコーヒー景観データセットでは、従来のCNNベースの手法をほぼ5%上回った。

ABSTRACT

We explore the use of convolutional neural networks for the semantic classification of remote sensing scenes. Two recently proposed architectures, CaffeNet and GoogLeNet, are adopted, with three different learning modalities. Besides conventional training from scratch, we resort to pre-trained networks that are only fine-tuned on the target data, so as to avoid overfitting problems and reduce design time. Experiments on two remote sensing datasets, with markedly different characteristics, testify on the effectiveness and wide applicability of the proposed solution, which guarantees a significant performance improvement over all state-of-the-art references.

研究の動機と目的

リモートセンシング画像分類において、クラス内変動が大きく、クラス間距離が小さいという課題に対処すること。
特にCaffeNetおよびGoogLeNetを含む深層CNNの、リモートセンシングにおける意味的土地利用分類への有効性を評価すること。
多様なリモートセンシングデータセット上で、学習戦略の違い（スクラッチからの学習、事前学習済みネットワークの微調整、CNNを特徴抽出器として使用）を比較すること。
事前学習の元となったImageNetとは大きく異なるターゲットデータ（例：非光学、SARに類似）に対して、事前学習済みCNNの頑健性を評価すること。
深層学習を用いたリモートセンシング画像分類のための強力なベースラインを確立すること。

提案手法

ImageNetで事前学習済みの、2つの最先端のCNNアーキテクチャ（CaffeNetおよびGoogLeNet）を採用し、トランスファー学習を実施する。
3つの学習モードを採用：スクラッチからの学習、事前学習済みネットワークの微調整（複数層を更新）、最終全結合層を固定された特徴ベクトルとして使用。
収束性と一般化性能の向上を図るため、データオーグメンテーションおよび学習率スケジューリングを適用する。
ブラジルコーヒー景観データセットでは、バランスの取れた評価を保証するため、5分割交差検証を採用する。
標準的な分類指標（正確度を含む）を用いて、異なる手法間の性能を比較する。
ターゲットとなるリモートセンシングデータに特徴を適応させるために、初期学習率を低く設定し、全層または選択された層を更新することでネットワークを微調整する。

実験結果

リサーチクエスチョン

RQ1CaffeNetやGoogLeNetのような事前学習済みCNNは、従来の手作業で設計された特徴記述子と比較して、リモートセンシング画像分類において優れた性能を達成できるか？
RQ2限られたリモートセンシングデータセットにおいて、スクラッチからの学習と比較して、事前学習済みネットワークの微調整は、正確性および頑健性の観点で優れているか？
RQ3ターゲットデータ（例：非光学、SARに類似）がImageNetと大きく異なるドメインシフトが生じた場合、事前学習済みCNNの性能にどのような影響を与えるか？
RQ4CNNを固定された特徴抽出器として使用する（すなわち、直前層のみを用いる）場合、エンドツーエンドの微調整と比較して、競争力のある結果が得られるか？
RQ5高クラス内変動性を示すデータセット（例：ブラジルコーヒー景観データセット）において、提案手法はどのように性能を発揮するか？

主な発見

UC-Mercedデータセットでは、スクラッチから学習させたGoogLeNetを用いた本手法は、91.83%の分類正確度を達成し、最も優れた先行研究と比較してほぼ3%の向上を示した。
事前学習済みネットワークの微調整により、CaffeNetを用いて90.94%の正確度を達成し、限られたデータでも高い性能を示した。
ブラジルコーヒー景観データセットでは、スクラッチから学習させたGoogLeNetが91.83%の正確度を達成し、[8]で報告された最も優れた先行結果を5%上回った。
特徴ベクトルアプローチ（CNNを固定された記述子として使用）は、ブラジルデータセットでは著しく性能が低く、ドメインシフトが大きい場合には転移性が限定的であることが示された（CaffeNetで85.02%）。
微調整は、特にイメージングモダリティや分布がImageNetと大きく異なるターゲットデータセットにおいて、特徴抽出よりも優れた結果をもたらした。
クラス内変動が高く、画像撮影条件が困難な状況にあっても、本手法はブラジルコーヒー景観データセットでほぼ92%の正確度を達成し、その頑健性とスケーラビリティを確認した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。