Skip to main content
QUICK REVIEW

[논문 리뷰] Local Precise Refinement: A Dual-Gated Mixture-of-Experts for Enhancing Foundation Model Generalization against Spectral Shifts

Xi Chen, Maojun Zhang|arXiv (Cornell University)|2026. 03. 08.
Remote-Sensing Image Classification인용 수 0
한 줄 요약

SpectralMoE는 깊이 기반 구조적 사전지식을 활용하여 공간적으로 적응적인 방식으로 기초 모델을 미세 조정하고, 분광 원격 감지 시맨틱 세분화에서 도메인 일반화를 향상시키는 이중 게이트 Mixture-of-Experts 모듈을 도입한다.

ABSTRACT

Domain Generalization Semantic Segmentation (DGSS) in spectral remote sensing is severely challenged by spectral shifts across diverse acquisition conditions, which cause significant performance degradation for models deployed in unseen domains. While fine-tuning foundation models is a promising direction, existing methods employ global, homogeneous adjustments. This "one-size-fits-all" tuning struggles with the spatial heterogeneity of land cover, causing semantic confusion. We argue that the key to robust DGSS lies not in a single global adaptation, but in performing fine-grained, spatially-adaptive refinement of a foundation model's features. To achieve this, we propose SpectralMoE, a novel fine-tuning framework for DGSS. It operationalizes this principle by utilizing a Mixture-of-Experts (MoE) architecture to perform extbf{local precise refinement} on the foundation model's features, incorporating depth features estimated from selected RGB bands of the spectral remote sensing imagery to guide the fine-tuning process. Specifically, SpectralMoE employs a dual-gated MoE architecture that independently routes visual and depth features to top-k selected experts for specialized refinement, enabling modality-specific adjustments. A subsequent cross-attention mechanism then judiciously fuses the refined structural cues into the visual stream, mitigating semantic ambiguities caused by spectral variations. Extensive experiments show that SpectralMoE sets a new state-of-the-art on multiple DGSS benchmarks across hyperspectral, multispectral, and RGB remote sensing imagery.

연구 동기 및 목표

  • 스펙트럴 리모트 센싱 시맨틱 세분화(DGSS)에서 심각한 스펙트럴 시프트와 공간적 이질성을 해결한다.
  • 전역적이고 균질한 미세 조정에서 벗어나 공간적으로 적응적인 지역 특징 정제로 나아간다.
  • 깊이 기반 구조적 사전지식을 활용하여 스펙트럴 모호성 및 클래스 간 혼동을 완화한다.
  • 고정된 기초 모델에서 시각적 특징과 깊이 특징을 모두 조정할 수 있는 경량의 플러그인 모듈을 도입한다.
  • 하이퍼스펙트럴, 다중 스펙트럴 및 RGB DGSS 벤치마크에서 최첨단 성능을 입증한다.

제안 방법

  • 고정된 비전 및 깊이 기초 모델의 각 계층에 SpectralMoE 모듈을 삽입한다.
  • 시각 및 깊이 특징을 로컬 정제를 위한 상위 k 전문 전문가로 안내하기 위해 이중 게이트 MoE를 사용한다.
  • 각 전문가는 매개변수를 효율적으로 유지하기 위해 저차수 분해를 통해 학습된 적응 토큰으로 표현된다.
  • 시각 및 깊이 특징에 대해 거리 기반의 노이즈 게이팅 함수로 모달리티별 라우팅 로짓을 계산한다.
  • 강건한 구조적 사전지식을 시각 스트림에 주입하기 위해 교차 어텐션 모듈로 정제된 시각 및 깊이 특징을 융합한다.
Figure 2 : Spectral shift in spectral RS imagery. Variations in sensor characteristics and geospatial conditions can lead to significant divergence in the spectral signatures of land cover features belonging to the same class.
Figure 2 : Spectral shift in spectral RS imagery. Variations in sensor characteristics and geospatial conditions can lead to significant divergence in the spectral signatures of land cover features belonging to the same class.

실험 결과

연구 질문

  • RQ1이중 게이트 MoE를 통한 공간적으로 적응적인 지역 특징 정제가 스펙트럴 시프트하에서 DGSS를 개선할 수 있는가?
  • RQ2교차 주의를 통해 깊이 기반 구조적 사전지식을 도입하면 스펙트럴 유사성으로 인한 시맨틱 모호성을 줄일 수 있는가?
  • RQ3VFMs와 RSFMs이 전체 재훈련 없이 경량 플러그인 MoE 모듈을 통한 미세 조정에 적합한가?
  • RQ4전문가 수가 DGSS 성능과 효율성에 미치는 영향은 무엇인가?

주요 결과

  • SpectralMoE는 고스펙트럼, 다중 스펙트럼 및 RGB 데이터를 포함하는 일곱 개 DGSS 벤치마크에서 새로운 최첨단 성능을 확립한다.
  • 이중 게이트 MoE는 시각 및 깊이 특징에 대해 세밀하고 공간적으로 적응적인 조정을 가능하게 하여 전역 조정 기준치를 능가한다.
  • 교차 주의와 함께 깊이 기반의 구조적 사전지식 도입은 스펙트럴 시프트 하에서 세분화의 강건성을 크게 향상시킨다.
  • 적당한 수의 전문가(N_e = 6)가 매개변수 효율성을 유지하면서 최적의 성능을 낸다.
  • SpectralMoE는 DINOv3, DOFA, CLIP, SAM, EVA02, DINOv2를 포함한 다수의 백본에서 다른 PEFT 어댑터를 지속적으로 능가한다.
Figure 3 : Overview of the proposed SpectralMoE framework. SpectralMoE is inserted as a lightweight plugin into each layer of frozen VFMs and DFMs. At its core is a dual-gated MoE mechanism. A dual-gated network independently routes visual and depth feature tokens to specialized experts, enabling fi
Figure 3 : Overview of the proposed SpectralMoE framework. SpectralMoE is inserted as a lightweight plugin into each layer of frozen VFMs and DFMs. At its core is a dual-gated MoE mechanism. A dual-gated network independently routes visual and depth feature tokens to specialized experts, enabling fi

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.