QUICK REVIEW

[论文解读] Deep Learning for End-to-End Automatic Target Recognition from Synthetic Aperture Radar Imagery

Hidetoshi Furukawa|arXiv (Cornell University)|Jan 25, 2018

Advanced SAR Imaging Techniques被引用 28

一句话总结

本文提出 VersNet，一种用于合成孔径雷达（SAR）端到端自动目标识别（ATR）的全卷积神经网络（FCN），可联合执行任意尺寸SAR图像中的多目标检测、分类与姿态估计。在MSTAR数据集上进行训练后，VersNet在10个目标类别上实现了99.55%的分类准确率和0.923的平均交并比（IoU），在无需预提取目标图像块的情况下，实现了检测、分类与姿态估计的最先进性能。

ABSTRACT

The standard architecture of synthetic aperture radar (SAR) automatic target recognition (ATR) consists of three stages: detection, discrimination, and classification. In recent years, convolutional neural networks (CNNs) for SAR ATR have been proposed, but most of them classify target classes from a target chip extracted from SAR imagery, as a classification for the third stage of SAR ATR. In this report, we propose a novel CNN for end-to-end ATR from SAR imagery. The CNN named verification support network (VersNet) performs all three stages of SAR ATR end-to-end. VersNet inputs a SAR image of arbitrary sizes with multiple classes and multiple targets, and outputs a SAR ATR image representing the position, class, and pose of each detected target. This report describes the evaluation results of VersNet which trained to output scores of all 12 classes: 10 target classes, a target front class, and a background class, for each pixel using the moving and stationary target acquisition and recognition (MSTAR) public dataset.

研究动机与目标

解决传统三阶段SAR ATR流程的局限性，该流程需要人工提取目标图像块，并对检测、识别与分类进行独立处理。
开发一种统一的深度学习框架，可直接处理任意尺寸的SAR图像，消除目标裁剪等预处理步骤的需求。
利用单一CNN架构，在一次前向传播中同时预测目标位置、类别与姿态（正面朝向）。
通过端到端学习联合优化检测、分类与姿态估计，提升整体ATR性能。

提出的方法

VersNet是一种具有编码器-解码器结构的全卷积网络（FCN），采用3×3卷积和解码器中的16×上采样转置卷积。
网络使用交叉熵损失与随机梯度下降（SGD）及动量进行训练，优化12个类别的像素级分类：10个目标类别、一个正面类别和一个背景类别。
训练数据由SAR图像和对应的标签图像组成，其中每个像素被分配一个类别标签，从而实现基于语义分割的监督学习，支持检测与分类。
由于全卷积设计，该模型可处理任意尺寸的输入SAR图像，无需分块或裁剪即可在全场景图像上进行推理。
关键创新在于使用真实标签图像，同时编码目标位置与类别信息，包括姿态（正面）信息，从而实现位置、类别与朝向的联合预测。
网络输出一个分割图（SAR ATR图像），其中每个像素预测其属于特定类别（包括背景和带姿态的目标类别）的可能性。

实验结果

研究问题

RQ1单一深度学习模型是否能够在无需预提取目标图像块的情况下，实现端到端的SAR ATR，包括检测、分类与姿态估计？
RQ2在像素级标签上进行训练的全卷积网络（FCN）在任意尺寸SAR图像上实现联合检测与分类的性能如何？
RQ3所提模型在MSTAR基准测试中的分类准确率与分割质量（IoU）表现如何？
RQ4该模型是否无需架构修改或后处理即可泛化至多类别与多目标场景？
RQ5在IoU与分类准确率方面，该模型与最先进方法相比表现如何？

主要发现

所提出的VersNet在MSTAR测试集上实现了99.55%的分类准确率，10个目标类别上的平均准确率为99.52%。
所有12个类别（包括背景和正面类别）的平均交并比（IoU）为0.915，仅考虑10个目标类别的平均IoU为0.923。
该模型展现出强大的分割性能，所有测试图像的平均IoU为0.930，标准差为0.082。
经验累积分布显示，仅有1%的图像IoU低于0.5，10%的图像IoU低于0.9，表明分割质量具有高度一致性。
定性结果验证了模型在单张图像中成功检测并分类了多个不同类别的目标，包括最多含25个目标的复杂场景。
该网络在所有类别上均实现了高精度（平均0.974）与高召回率（平均0.947），F1分数为0.960，表明性能稳健且均衡。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。