Skip to main content
QUICK REVIEW

[논문 리뷰] ClassWise-SAM-Adapter: Parameter Efficient Fine-tuning Adapts Segment Anything to SAR Domain for Semantic Segmentation

Xinyang Pu, Hecheng Jia|arXiv (Cornell University)|2024. 01. 04.
Advanced Neural Network Applications인용 수 7
한 줄 요약

CWSAM은 동결된 SAM에 어댑터를 적용하고, 다중 클래스 마스크 디코더와 저주파 SAR 입력 모듈을 활용하여 파라미터 수가 적은 상태에서 최첨단 결과를 달성합니다.

ABSTRACT

In the realm of artificial intelligence, the emergence of foundation models, backed by high computing capabilities and extensive data, has been revolutionary. Segment Anything Model (SAM), built on the Vision Transformer (ViT) model with millions of parameters and vast training dataset SA-1B, excels in various segmentation scenarios relying on its significance of semantic information and generalization ability. Such achievement of visual foundation model stimulates continuous researches on specific downstream tasks in computer vision. The ClassWise-SAM-Adapter (CWSAM) is designed to adapt the high-performing SAM for landcover classification on space-borne Synthetic Aperture Radar (SAR) images. The proposed CWSAM freezes most of SAM's parameters and incorporates lightweight adapters for parameter efficient fine-tuning, and a classwise mask decoder is designed to achieve semantic segmentation task. This adapt-tuning method allows for efficient landcover classification of SAR images, balancing the accuracy with computational demand. In addition, the task specific input module injects low frequency information of SAR images by MLP-based layers to improve the model performance. Compared to conventional state-of-the-art semantic segmentation algorithms by extensive experiments, CWSAM showcases enhanced performance with fewer computing resources, highlighting the potential of leveraging foundational models like SAM for specific downstream tasks in the SAR domain. The source code is available at: https://github.com/xypu98/CWSAM.

연구 동기 및 목표

  • SAM을 SAR 도메인으로 연결하여 SAR 영상에서 토지 피복 분할을 수행한다.
  • 매개변수 효율적인 미세 조정 프레임워크로 의미론적 분할을 달성한다.
  • 다중 클래스 픽셀 라벨링을 가능하게 하는 클래스별 마스크 디코더를 설계한다.
  • 저주파 SAR 정보를 주입하는 작업 특정 입력 모듈을 도입한다.
  • FUSAR-Map1.0과 FUSAR-Map2.0 데이터셋에서 효율성과 정확도 이점을 보여준다.

제안 방법

  • SAM의 비전 트랜스포머 인코더를 고정하고 각 트랜스포머 블록에 경량 어댑터를 삽입하여 파라미터 효율적인 미세 조정을 가능하게 한다.
  • 보통 이진 SAM 마스크에서 다중 클래스로 마스크를 출력하는 전용 클래스별 예측 경로를 가진 클래스별 마스크 디코더를 도입한다.
  • 2D FFT 유래 특징과 SAM 임베딩을 MLP 기반 융합으로 저주파 SAR 정보를 주입하는 작업 특정 입력 모듈을 부착한다.
  • 불균형한 토지 피복 범주를 다루기 위해 가중치 교차 엔트로피 손실을 사용하여 학습한다.
  • 프롬프트 인코딩 및 마스크 디코딩을 위한 SAM 아키텍처를 유지하면서도 소수의 추가 파라미터만 학습한다.

실험 결과

연구 질문

  • RQ1ClassWise-SAM-Adapter가 SAM의 전체 미세 조정에 비해 훨씬 적은 학습 가능한 파라미터로 SAR 토지 피복 분할에서 경쟁력 있는 성능을 달성할 수 있는가?
  • RQ2클래스별 마스크 디코더가 SAR 영상에서 SAM의 원래 마스크 출력 대비 의미 있는 다중 클래스 분할을 제공하는가?
  • RQ3저주파 SAR 정보를 도입하는 것이 분할 성능에 어떤 영향을 미치는가?
  • RQ4CWSAM이 FUSAR-Map1.0 및 FUSAR-Map2.0에서 mIoU 및 다른 지표 측면에서 최첨단 의미론적 분할 방법과 비교하여 어떤 성능 차이를 보이는가?

주요 결과

  • CWSAM은 FUSAR-Map1.0에서 mIoU 61.48을 달성하여 여러 최첨단 방법(예: SegFormer 변형)보다 다양한 지표에서 우수한 성능을 보였습니다.
  • FUSAR-Map1.0에서 CWSAM은 OA 82.14 및 Accuracy 73.45를 achieving robust overall performance를 나타냅니다.
  • FUSAR-Map2.0에서 CWSAM은 mIoU 36.03 및 OA 67.67를 달성하여 비교된 방법들 중 최상의 전반적 성능을 달성했습니다.
  • 도로 및 건물과 같은 도전적인 클래스에서 강력한 범주별 성능 및 에지 구분을 보여주고, 특히 이점이 큽니다.
  • CWSAM은 동결된 SAM 매개변수와 경량 어댑터 구성을 사용하여 학습 파라미터 수를 줄이고 메모리 사용을 감소시킵니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.