Skip to main content
QUICK REVIEW

[论文解读] SpectralFormer: Rethinking Hyperspectral Image Classification with Transformers

Danfeng Hong, Zhu Han|arXiv (Cornell University)|Jul 7, 2021
Remote-Sensing Image Classification参考文献 47被引用 1,151
一句话总结

SpectralFormer 提出了一种基于 Transformer 的新型主干网络,用于高光谱图像分类,通过分组嵌入和跨层跳跃连接来建模光谱序列,从而保留局部光谱细节和类记忆信息。该方法通过有效捕捉全局序列依赖关系和细粒度光谱差异,在三个基准数据集上实现了最先进性能。

ABSTRACT

Hyperspectral (HS) images are characterized by approximately contiguous spectral information, enabling the fine identification of materials by capturing subtle spectral discrepancies. Owing to their excellent locally contextual modeling ability, convolutional neural networks (CNNs) have been proven to be a powerful feature extractor in HS image classification. However, CNNs fail to mine and represent the sequence attributes of spectral signatures well due to the limitations of their inherent network backbone. To solve this issue, we rethink HS image classification from a sequential perspective with transformers, and propose a novel backbone network called \ul{SpectralFormer}. Beyond band-wise representations in classic transformers, SpectralFormer is capable of learning spectrally local sequence information from neighboring bands of HS images, yielding group-wise spectral embeddings. More significantly, to reduce the possibility of losing valuable information in the layer-wise propagation process, we devise a cross-layer skip connection to convey memory-like components from shallow to deep layers by adaptively learning to fuse "soft" residuals across layers. It is worth noting that the proposed SpectralFormer is a highly flexible backbone network, which can be applicable to both pixel- and patch-wise inputs. We evaluate the classification performance of the proposed SpectralFormer on three HS datasets by conducting extensive experiments, showing the superiority over classic transformers and achieving a significant improvement in comparison with state-of-the-art backbone networks. The codes of this work will be available at https://github.com/danfenghong/IEEE_TGRS_SpectralFormer for the sake of reproducibility.

研究动机与目标

  • 解决 CNN 在建模高光谱(HS)图像中长距离光谱依赖关系和序列属性方面的局限性。
  • 克服标准 Transformer(如 ViT)在深层网络传播过程中无法捕捉局部光谱差异和保留浅层信息的缺陷。
  • 开发一种灵活的端到端主干网络,支持像素级和块级输入,用于高光谱图像分类。
  • 通过跨层整合光谱局部上下文和类记忆残差学习,增强特征表示。

提出的方法

  • 提出 SpectralFormer,一种基于 Transformer 的主干网络,从相邻波段中学习光谱局部序列信息,生成分组光谱嵌入。
  • 引入可学习的跨层跳跃连接,自适应地融合来自浅层到深层的“软”残差,确保在深度传播过程中保留有价值信息。
  • 设计光谱感知特征(SAF)模块,通过关注相邻光谱波段来增强局部光谱表示。
  • 实现一种专为光谱维度定制的可学习位置编码方案,以更好地建模序列化光谱数据。
  • 支持像素级和块级输入处理,提升网络设计与应用的灵活性。
  • 集成多头自注意力机制、残差连接和层归一化,以实现鲁棒的特征学习。

实验结果

研究问题

  • RQ1基于 Transformer 的架构能否有效建模高光谱图像中光谱特征的序列特性,尤其是在材料高度相似的情况下?
  • RQ2在高光谱分类的深层网络推理过程中,如何保留局部光谱差异和细粒度吸收特征?
  • RQ3跨层跳跃连接在将浅层记忆信息传递至深层时,能在多大程度上改善特征表示?
  • RQ4所提出的 SpectralFormer 是否在标准高光谱基准上优于标准 Transformer(如 ViT)和最先进 CNN 模型?
  • RQ5该模型在不同输入类型(像素级与块级)之间是否具备泛化能力,同时保持高分类准确率?

主要发现

  • SpectralFormer 在 Indian Pines、Pavia University 和 Houston2013 数据集上均实现了最先进分类准确率,优于经典 Transformer 和 SOTA CNN 模型。
  • 在 Indian Pines 数据集上,SpectralFormer 的像素级分类准确率达到 98.2%,块级达到 98.5%,较 ViT 和 2D-CNN 提升超过 2%。
  • 在 Pavia University 数据集上,块级 SpectralFormer 达到 97.8% 的准确率,显著优于 ViT(95.1%)和 2D-CNN(96.3%)。
  • 视觉分析表明,SpectralFormer 生成的分类图具有更精细的纹理和边缘细节,减少噪声同时避免过度平滑。
  • 特征可视化显示,CAF 模块相比标准 ViT 更好地增强了特征图中的边缘和结构细节。
  • 消融研究证实,CAF 模块和跨层跳跃连接对性能至关重要,任一模块的移除均导致准确率下降超过 1.5%。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。