Skip to main content
QUICK REVIEW

[論文レビュー] Deep Learning for End-to-End Automatic Target Recognition from Synthetic Aperture Radar Imagery

Hidetoshi Furukawa|arXiv (Cornell University)|Jan 25, 2018
Advanced SAR Imaging Techniques被引用数 28
ひとこと要約

本論文では、任意サイズのSAR画像から複数ターゲットの検出、分類、ポーズ推定を一括で行う、完全畳み込みニューラルネットワーク(FCN)であるVersNetを提案する。MSTARデータセットで訓練されたVersNetは、10個のターゲットクラスにおいて分類精度99.55%、平均交差率(IoU)0.923を達成し、事前に抽出されたターゲットチップを必要とせずに、検出・分類・ポーズ推定の統合的性能が最先端水準であることを示している。

ABSTRACT

The standard architecture of synthetic aperture radar (SAR) automatic target recognition (ATR) consists of three stages: detection, discrimination, and classification. In recent years, convolutional neural networks (CNNs) for SAR ATR have been proposed, but most of them classify target classes from a target chip extracted from SAR imagery, as a classification for the third stage of SAR ATR. In this report, we propose a novel CNN for end-to-end ATR from SAR imagery. The CNN named verification support network (VersNet) performs all three stages of SAR ATR end-to-end. VersNet inputs a SAR image of arbitrary sizes with multiple classes and multiple targets, and outputs a SAR ATR image representing the position, class, and pose of each detected target. This report describes the evaluation results of VersNet which trained to output scores of all 12 classes: 10 target classes, a target front class, and a background class, for each pixel using the moving and stationary target acquisition and recognition (MSTAR) public dataset.

研究の動機と目的

  • 手動によるターゲットチップ抽出と、検出・識別・分類のための別々の処理を必要とする従来の3段階SAR ATRパイプラインの限界を解消すること。
  • 任意サイズのSAR画像を直接処理できる統合的ディープラーニングフレームワークを構築し、ターゲットの切り出しなどの事前処理を不要にする。
  • 1つの畳み込みニューラルネットワーク(CNN)アーキテクチャを用いて、1回の順伝播でターゲットの位置、クラス、ポーズ(前面)を同時に予測すること。
  • 検出・分類・ポーズ推定を統合的に最適化するエンドツーエンド学習により、全体的なATR性能を向上させること。

提案手法

  • VersNetはエンコーダ・デコーダ構造を有する完全畳み込みネットワーク(FCN)であり、3×3畳み込みと、デコーダで16×アップサンプリングを行う逆畳み込みを用いる。
  • ネットワークは確率的勾配降下法(SGD)とモーメンタムを用いて訓練され、交差エントロピー損失関数を最適化対象とし、12クラス(10個のターゲットクラス、前面クラス、背景クラス)の画素単位分類を目的とする。
  • 学習データは、SAR画像と対応するラベル画像から構成され、各画素にクラスラベルが割り当てられており、検出と分類を伴うセマンティックセグメンテーションのための教師あり学習を可能にする。
  • 完全畳み込み設計のおかげで、入力SAR画像のサイズに依存せず、パッチ分割や切り出しを伴わずに、フルシーン画像の推論が可能である。
  • 主なイノベーションの1つは、ターゲットの位置とクラスに加え、ポーズ(前面)情報も符号化した真値ラベル画像の使用であり、これにより位置・クラス・方向の同時予測が可能になる。
  • ネットワークの出力は、各画素が特定のクラス(背景およびポーズ付きターゲットクラスを含む)に属する確率を予測するセグメンテーションマップ(SAR ATR画像)である。

実験結果

リサーチクエスチョン

  • RQ1事前に抽出されたターゲットチップを必要とせず、1つのディープラーニングモデルがエンドツーエンドでSAR ATR(検出・分類・ポーズ推定)を実行可能か?
  • RQ2画素単位のラベルで訓練された完全畳み込みネットワーク(FCN)は、任意サイズのSAR画像上で、検出と分類を統合的にどの程度達成できるか?
  • RQ3提案手法の分類精度およびセグメンテーション品質(IoU)は、MSTARベンチマークでどの程度の水準にあるか?
  • RQ4アーキテクチャの変更や後処理を施さずに、マルチクラス・マルチターゲットシーンに一般化可能か?
  • RQ5IoUおよび分類精度の観点から、最先端手法と比較して本手法の性能はどの程度か?

主な発見

  • 提案されたVersNetは、MSTARテストセットで99.55%の分類精度を達成し、10個のターゲットクラスの平均精度は99.52%であった。
  • 全12クラス(背景および前面クラスを含む)の平均交差率(IoU)は0.915であり、10個のターゲットクラスのみを対象とした場合は0.923であった。
  • モデルは高いセグメンテーション性能を示し、全テスト画像で平均IoUが0.930、標準偏差が0.082であった。
  • 実証的累積分布関数によると、IoUが0.5未満の画像は1%にとどまり、IoUが0.9未満の画像は10%に留まり、セグメンテーション品質の高さと一貫性が示された。
  • 複数の異なるクラスのターゲットが1枚の画像に存在する複雑なシーンにおいても、モデルは複数のターゲットを正しく検出・分類できたことが、定性的な結果で確認された(最大25ターゲットを含むシーン)。
  • 全クラスにおいて、平均精度(0.974)と再現率(0.947)が高く、F1スコアは0.960であった。これは、性能が強くバランスが取れていることを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。