QUICK REVIEW

[論文レビュー] Dual Local-Global Contextual Pathways for Recognition in Aerial Imagery

Alina Marcu, Marius Leordeanu|arXiv (Cornell University)|May 18, 2016

Video Surveillance and Tracking Methods参考文献 2被引用数 24

ひとこと要約

本論文では、空中画像における意味的セグメンテーションのため、局所的オブジェクト外観とグローバルなシーンコンテキストを共同で学習するデュアルストリーム深層畳み込みニューラルネットワーク（LG-Seg）を提案する。局所的特徴にはVGG-Netを、グローバルコンテキストには変更を加えたAlexNetを組み合わせることで、マサチューセッツ・ビルディングスデータセットにおいて最先端の性能を達成した。これは、補完的な局所的およびグローバルな推論が、遮蔽や低解像度といった困難な条件下でも認識性能を著しく向上させることを示している。

ABSTRACT

Visual context is important in object recognition and it is still an open problem in computer vision. Along with the advent of deep convolutional neural networks (CNN), using contextual information with such systems starts to receive attention in the literature. At the same time, aerial imagery is gaining momentum. While advances in deep learning make good progress in aerial image analysis, this problem still poses many great challenges. Aerial images are often taken under poor lighting conditions and contain low resolution objects, many times occluded by trees or taller buildings. In this domain, in particular, visual context could be of great help, but there are still very few papers that consider context in aerial image understanding. Here we introduce context as a complementary way of recognizing objects. We propose a dual-stream deep neural network model that processes information along two independent pathways, one for local and another for global visual reasoning. The two are later combined in the final layers of processing. Our model learns to combine local object appearance as well as information from the larger scene at the same time and in a complementary way, such that together they form a powerful classifier. We test our dual-stream network on the task of segmentation of buildings and roads in aerial images and obtain state-of-the-art results on the Massachusetts Buildings Dataset. We also introduce two new datasets, for buildings and road segmentation, respectively, and study the relative importance of local appearance vs. the larger scene, as well as their performance in combination. While our local-global model could also be useful in general recognition tasks, we clearly demonstrate the effectiveness of visual context in conjunction with deep nets for aerial image understanding.

研究の動機と目的

深層学習モデルに視覚的コンテキストを統合することで、空中画像における意味的セグメンテーションの性能を向上させること。
局所的特徴が低解像度、遮蔽、または照明が悪い状況で曇っている場合に、グローバルなシーンコンテキストが認識精度を向上させるかどうかを調査すること。
明示的な教師信号なしに、局所的およびグローバルな視覚的コンテキストの補完的表現を学習するデュアルストリームアーキテクチャを設計すること。
実世界の空中データセット（建物および道路の新しいベンチマークを含む）において、局所的・グローバルな推論を共同で行う有効性を実証すること。

提案手法

モデルは2つの並列パスウェイを採用する：1つは小さな画像クロップから高解像度の局所的特徴を抽出するように微調整されたVGG-Netに基づく。
2番目のパスウェイは、大きなグローバルな画像領域を処理するように変更されたAlexNetを用い、文脈的なシーン情報を捉える。
両パスウェイの特徴は、最終的な全結合層で連結され、共同推論と矛盾の解消が可能になる。
ピクセルレベルのアノテーションに基づく意味的セグメンテーションのための共同損失関数を用いて、エンドツーエンドでネットワークを訓練する。
アブレーションスタディでは、推論時に1つのパスウェイをマスクし、空白の平均画像を用いて各ストリームの寄与を分離した。
アーキテクチャはマサチューセッツ・ビルディングスデータセットおよび、建物および道路セグメンテーション用に新たに導入された2つのデータセットで評価された。

実験結果

リサーチクエスチョン

RQ1局所的特徴が遮蔽や低解像度によって劣化している場合、グローバルな視覚的コンテキストが空中画像における意味的セグメンテーション精度を顕著に向上させられるか？
RQ2局所的およびグローバルなパスウェイは、最終的なセグメンテーション出力にどのように異なる寄与をしているのか。また、共同学習によってそれらの役割は自動的に出現するのか？
RQ3局所的外観とグローバルなシーンコンテキストを組み合わせることで、単一の局所的特徴に依存するモデルよりも優れた性能が得られるか？
RQ4さまざまな空中画像シナリオにおいて、局所的外観とグローバルコンテキストの相対的な重要性は何か？

主な発見

提案されたLG-Segモデルは、マサチューセッツ・ビルディングスデータセットで最先端の性能を達成し、単一の局所的外観に依存する既存の手法を上回った。
局所的パスウェイのみが有効な場合、モデルは個々の建物の明確で詳細なセグメンテーションを生成し、強力な局所的特徴学習を示している。
グローバルパスウェイのみが有効な場合、モデルは住宅地の柔らかく整合性のあるセグメンテーションを生成し、専用の住宅地分類器に類似した結果を示した。
2つのパスウェイは、明示的な教師信号なしに、訓練中に自動的に補完的な役割を学習した—局所的特徴は細部を、グローバル特徴はシーンレベルの整合性を担当する。
モデルは遮蔽や低照度に対しても頑健であり、グローバルパスウェイが低密度領域における局所的誤認識（ホールーシング）を抑制した。
アブレーションスタディにより、局所的およびグローバル特徴の組み合わせが、単独のパスウェイよりも優れた性能を発揮することが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。