Skip to main content
QUICK REVIEW

[논문 리뷰] Cross-City Matters: A Multimodal Remote Sensing Benchmark Dataset for Cross-City Semantic Segmentation using High-Resolution Domain Adaptation Networks

Danfeng Hong, Bing Zhang|arXiv (Cornell University)|2023. 09. 26.
Remote-Sensing Image Classification인용 수 8
한 줄 요약

본 논문은 교차 도시 의미 인식을 위한 C2Seg 멀티모달 RS 벤치마크와 고해상도 HRNet 기반 멀티모달 인코더를 사용하는 HighDAN 네트워크를 제시하며, 적대적 도메인 적응과 Dice 손실을 통해 도시 간 일반화 성능을 향상시킨다.

ABSTRACT

Artificial intelligence (AI) approaches nowadays have gained remarkable success in single-modality-dominated remote sensing (RS) applications, especially with an emphasis on individual urban environments (e.g., single cities or regions). Yet these AI models tend to meet the performance bottleneck in the case studies across cities or regions, due to the lack of diverse RS information and cutting-edge solutions with high generalization ability. To this end, we build a new set of multimodal remote sensing benchmark datasets (including hyperspectral, multispectral, SAR) for the study purpose of the cross-city semantic segmentation task (called C2Seg dataset), which consists of two cross-city scenes, i.e., Berlin-Augsburg (in Germany) and Beijing-Wuhan (in China). Beyond the single city, we propose a high-resolution domain adaptation network, HighDAN for short, to promote the AI model's generalization ability from the multi-city environments. HighDAN is capable of retaining the spatially topological structure of the studied urban scene well in a parallel high-to-low resolution fusion fashion but also closing the gap derived from enormous differences of RS image representations between different cities by means of adversarial learning. In addition, the Dice loss is considered in HighDAN to alleviate the class imbalance issue caused by factors across cities. Extensive experiments conducted on the C2Seg dataset show the superiority of our HighDAN in terms of segmentation performance and generalization ability, compared to state-of-the-art competitors. The C2Seg dataset and the semantic segmentation toolbox (involving the proposed HighDAN) will be available publicly at https://github.com/danfenghong.

연구 동기 및 목표

  • 도시와 지역 간 일반화 제약을 극복하기 위해 멀티모달 RS 데이터를 활용한 교차 도시 의미 인식을 촉진한다.
  • 두 개의 교차 도시 장면과 13개 토지 피복 클래스로 구성된 크고 공개적으로 이용 가능한 멀티모달 RS 벤치마크(C2Seg)를 제공한다.
  • 도시 간 지식 전이를 위한 고해상도 멀티모달 도메인 적응 네트워크인 HighDAN을 개발한다.
  • 도메인 적응과 Dice 손실이 최첨단 베이스라인보다 교차 도시 분할 성능을 개선함을 입증한다.

제안 방법

  • C2Seg를 두 개의 교차 도시 데이터셋으로 소개한다: C2Seg-AB (Berlin-Augsburg, Germany)와 C2Seg-BW (Beijing-Wuhan, China)로 10 m GSD의 하이퍼스펙트럴, 멀티스펙트럴, SAR 데이터를 포함한다.
  • 멀티모달 표현을 위해 병렬 고해상도 스트림을 고-저 해상도으로 융합하는 HR-Net 기반의 고해상도 네트워크인 HighDAN을 설계한다.
  • 특징 추출 헤드와 멀티모달 HR 서브네트워크를 갖춘 멀티모달 인코더를 구현하여 모달리티 간 고해상도 표현을 학습한다.
  • 소스 도메인과 타깃 도메인 표현을 정렬하기 위해 특징 레벨과 카테고리 레벨에서의 적대적 도메인 적응 모듈을 통합한다.
  • 도시 간 클래스 불균형을 완화하고 도메인 간 분할 견고성을 향상시키기 위해 Dice 손실을 삽입한다.
  • 하이퍼스펙트럴, 멀티스펙트럴, SAR 데이터를 처리하기 위해 세 스트림 아키텍처를 사용하고 안정성을 위해 공유된 HR 모듈 매개변수를 사용한다.

실험 결과

연구 질문

  • RQ1멀티모달 RS 벤치마크 데이터셋이 교차 도시 의미 인식 연구를 어떻게 지원할 수 있는가?
  • RQ2고해상도 표현을 보존하고 도메인 적응을 활용함으로써 HighDAN이 교차 도시 일반화를 향상시킬 수 있는가?
  • RQ3특징 수준 및 카테고리 수준에서의 적대적 도메인 적응이 멀티모달 RS 데이터의 도시 간 도메인 격차를 줄이는가?
  • RQ4Dice 손실이 교차 도시 토지 피복 분할의 클래스 불균형 문제를 완화하는가?

주요 결과

  • HighDAN은 C2Seg 데이터셋에서 교차 도시 의미 인식 분야의 최첨단 경쟁자들을 능가한다.
  • 멀티모달 HR 융합 전략은 공간 토폴로지를 보존하면서 적대적 도메인 적응을 통해 교차 도시 전이를 가능하게 한다.
  • Dice 손실은 교차 도시 분할 작업에 내재된 클래스 불균형 문제를 완화하는 데 도움을 준다.
  • C2Seg는 두 도시 쌍과 세 가지 모달리티에 걸쳐 교차 도시 멀티모달 RS 분할에 공개적으로 이용 가능한 벤치마크를 제공한다.
  • 데이터셋과 HighDAN 도구상자는 향후 연구 확대를 위해 공개적으로 배포될 예정이다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.