Skip to main content
QUICK REVIEW

[論文レビュー] Local Precise Refinement: A Dual-Gated Mixture-of-Experts for Enhancing Foundation Model Generalization against Spectral Shifts

Xi Chen, Maojun Zhang|arXiv (Cornell University)|Mar 8, 2026
Remote-Sensing Image Classification被引用数 0
ひとこと要約

SpectralMoEは、空間的に適応した方法で基盤モデルを微調整する二重ゲーティングMixture-of-Expertsモジュールを導入し、深度由来の構造的事前知識を活用してスペクトルリモートセンシングの意味的セグメンテーションにおけるドメイン一般化を改善します。

ABSTRACT

Domain Generalization Semantic Segmentation (DGSS) in spectral remote sensing is severely challenged by spectral shifts across diverse acquisition conditions, which cause significant performance degradation for models deployed in unseen domains. While fine-tuning foundation models is a promising direction, existing methods employ global, homogeneous adjustments. This "one-size-fits-all" tuning struggles with the spatial heterogeneity of land cover, causing semantic confusion. We argue that the key to robust DGSS lies not in a single global adaptation, but in performing fine-grained, spatially-adaptive refinement of a foundation model's features. To achieve this, we propose SpectralMoE, a novel fine-tuning framework for DGSS. It operationalizes this principle by utilizing a Mixture-of-Experts (MoE) architecture to perform extbf{local precise refinement} on the foundation model's features, incorporating depth features estimated from selected RGB bands of the spectral remote sensing imagery to guide the fine-tuning process. Specifically, SpectralMoE employs a dual-gated MoE architecture that independently routes visual and depth features to top-k selected experts for specialized refinement, enabling modality-specific adjustments. A subsequent cross-attention mechanism then judiciously fuses the refined structural cues into the visual stream, mitigating semantic ambiguities caused by spectral variations. Extensive experiments show that SpectralMoE sets a new state-of-the-art on multiple DGSS benchmarks across hyperspectral, multispectral, and RGB remote sensing imagery.

研究の動機と目的

  • スペクトルリモートセンシング意味的セグメンテーション(DGSS)における著しいスペクトルシフトと空間的異質性に対処する。
  • グローバルで均質なファインチューニングを越え、空間的に適応した局所特徴 refinement を行う。
  • 深度由来の構造的事前知識を活用してスペクトルの曖昧さとクラス間混同を緩和する。
  • 凍結された基盤モデルの視覚特徴と深度特徴の両方をチューニングできる軽量のプラグインモジュールを組み込む。
  • 超スペクトル、マルチスペクトル、RGBのDGSSベンチマークで最先端性能を示す。

提案手法

  • 凍結されたビジョンおよび深度基盤モデルの各層にSpectralMoEモジュールを挿入する。
  • 二重ゲーティングMoEを用いて視覚特徴と深度特徴をトップkの専門家へルーティングし、局所的な refinment を行う。
  • 低秩分解を用いて学習された適応トークンで各専門家を表現し、パラメータを効率的に保つ。
  • 視覚特徴と深度特徴に対して距離ベースのノイジーゲーティング関数を用いたモダリティ別ルーティングロジットを計算する。
  • クロスアテンションモジュールで refined な視覚特徴と深度特徴を統合し、視覚ストリームへ頑健な構造的 priors を注入する。
Figure 2 : Spectral shift in spectral RS imagery. Variations in sensor characteristics and geospatial conditions can lead to significant divergence in the spectral signatures of land cover features belonging to the same class.
Figure 2 : Spectral shift in spectral RS imagery. Variations in sensor characteristics and geospatial conditions can lead to significant divergence in the spectral signatures of land cover features belonging to the same class.

実験結果

リサーチクエスチョン

  • RQ1二重ゲーティングMoEにより局所的な空間適応的特徴 refinement がスペクトルシフト下のDGSSを改善するか。
  • RQ2クロスアテンションを介して深度由来の構造的 priors を組み込むとスペクトル類似性による意味的曖昧性を低減できるか。
  • RQ3VFMsおよびRSFMsは、完全再学習なしに軽量なプラグインMoEモジュールでファインチューニング可能か。
  • RQ4専門家の数(N_e)の影響がDGSSの性能と効率性にどう現れるか。

主な発見

  • SpectralMoEは、超スペクトル・マルチスペクトル・RGBデータを含む七つのDGSSベンチマークで新しい最先端結果を確立した。
  • 二重ゲーティングMoEは視覚特徴と深度特徴の両方に対し、グローバルなファインチューニングベースラインを上回る、粒度の細かい局所的適応を可能にする。
  • 深度由来の構造的 priors をクロスアテンションと組み合わせることで、スペクトルシフト下のセグメンテーションの頑健性が大幅に向上した。
  • 適切な専門家数(N_e = 6)がパラメータ効率と性能のバランスを取り、最適な結果をもたらす。
  • SpectralMoEはDINOv3、DOFA、CLIP、SAM、EVA02、DINOv2など、複数のバックボーンに対して他のPEFTアダプタを一貫して上回る。
Figure 3 : Overview of the proposed SpectralMoE framework. SpectralMoE is inserted as a lightweight plugin into each layer of frozen VFMs and DFMs. At its core is a dual-gated MoE mechanism. A dual-gated network independently routes visual and depth feature tokens to specialized experts, enabling fi
Figure 3 : Overview of the proposed SpectralMoE framework. SpectralMoE is inserted as a lightweight plugin into each layer of frozen VFMs and DFMs. At its core is a dual-gated MoE mechanism. A dual-gated network independently routes visual and depth feature tokens to specialized experts, enabling fi

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。