[논문 리뷰] Tighnari v2: Mitigating Label Noise and Distribution Shift in Multimodal Plant Distribution Prediction via Mixture of Experts and Weakly Supervised Learning
이 연구는 PO 데이터에서 의사 라벨을 집계하고 스택 가능한 삼모달 교차 주의 융합, 비대칭 손실, 그리고 식물 분포 예측의 인-디스투리뷰 테스트 케이스를 다루기 위한 Mixture of Experts 프레임워크를 활용하여 라벨 노이즈와 분포 시프트를 완화하도록 Tighnari를 확장한다.
Large-scale, cross-species plant distribution prediction plays a crucial role in biodiversity conservation, yet modeling efforts in this area still face significant challenges due to the sparsity and bias of observational data. Presence-Absence (PA) data provide accurate and noise-free labels, but are costly to obtain and limited in quantity; Presence-Only (PO) data, by contrast, offer broad spatial coverage and rich spatiotemporal distribution, but suffer from severe label noise in negative samples. To address these real-world constraints, this paper proposes a multimodal fusion framework that fully leverages the strengths of both PA and PO data. We introduce an innovative pseudo-label aggregation strategy for PO data based on the geographic coverage of satellite imagery, enabling geographic alignment between the label space and remote sensing feature space. In terms of model architecture, we adopt Swin Transformer Base as the backbone for satellite imagery, utilize the TabM network for tabular feature extraction, retain the Temporal Swin Transformer for time-series modeling, and employ a stackable serial tri-modal cross-attention mechanism to optimize the fusion of heterogeneous modalities. Furthermore, empirical analysis reveals significant geographic distribution shifts between PA training and test samples, and models trained by directly mixing PO and PA data tend to experience performance degradation due to label noise in PO data. To address this, we draw on the mixture-of-experts paradigm: test samples are partitioned according to their spatial proximity to PA samples, and different models trained on distinct datasets are used for inference and post-processing within each partition. Experiments on the GeoLifeCLEF 2025 dataset demonstrate that our approach achieves superior predictive performance in scenarios with limited PA coverage and pronounced distribution shifts.
연구 동기 및 목표
- 식물 분포 데이터의 희소성과 편향을 PA와 PO 데이터를 모두 활용하여 해결한다.
- 위성 이미지 패치 내 PO 라벨을 집계하는 약한 감독 의사 레이블링 전략을 제안한다.
- 다중모달 데이터(위성 영상, 표형 특성, 시계열)에 대한 스택형 삼모달 크로스 어텐션 융합을 개발한다.
- PA 학습과 테스트 샘플 간의 지리적 분포 시프트를 다루기 위해 Mixture of Experts 접근법을 도입한다.
제안 방법
- 위성 영상용 Swin Transformer 백본을 Swin Base로 업그레이드한다. 표 형 백본으로 TabM을 사용하고 시계열에는 Temporal Swin Transformer를 유지한다. 학습 데이터가 전적으로 PA일 때만 사용할 수 있는 선택적 이웃 라벨 집계 모달리티를 도입한다. 계층형 크로스 어텐션을 스택형 직렬 삼모달 크로스 어텐션 모듈로 대체한다. 레이블 노이즈와 다중 라벨 설정의 클래스 불균형을 해결하기 위해 비대칭 손실(ASL)을 채용한다. PA 데이터에 대한 지리적 근접성으로 테스트 샘플을 Mixture of Experts로 파Partition하고 파Partition에 따라 다른 모델을 사용한다.
- research_questions:[

실험 결과
연구 질문
- RQ1PO 데이터를 다중모달 식물 분포 모델에 과도한 라벨 노이즈를 도입하지 않고 활용할 수 있는 방법은 무엇인가?
- RQ2스택 가능한 삼모달 크로스 어텐션 융합이 이전의 크로스 어텐션 설계보다 다중모달 융합性能를 향상시킬 수 있는가?
- RQ3Mixture of Experts 접근법이 지리적 분포 시프트 및 PO 라벨 노이즈 하에서 예측을 개선하는가?
- RQ4백본 네트워크(Swin Base, TabM) 업그레이드와 PA/PO 데이터 통합에 대한 2단계 학습이 어떤 영향을 미치는가?
- RQ5이 분야에서 비대칭 손실이 풍부한 음수와 희박한 양수를 학습의 균형에 얼마나 효과적인가?
주요 결과
| 모델 | 2024 비공개 점수 | 2024 공개 점수 | 2025 비공개 점수 | 2025 공개 점수 |
|---|---|---|---|---|
| PA 전용 | 0.36908 | 0.37246 | 0.17290 | 0.20604 |
| PA + PO | 0.33335 | 0.33597 | 0.19107 | 0.21860 |
| MoE | 0.36908 | 0.37246 | 0.21689 | 0.24493 |
- 위성 패치의 지리적 커버리지를 기반으로 한 의사 라벨 집계 전략이 PO 라벨 노이즈를 감소시키고 원격 감지 특징과 라벨 공간의 정렬에 도움을 준다.
- Swin Transformer Base와 Temporal Swin Transformer가 각각 위성 및 시계열 데이터에 대해 우수한 특성 추출을 제공하고 TabM은 표형 특성 표현을 개선한다.
- 스택형 직렬 삼모달 크로스 어텐션 융합이 대안 융합 방법보다 우수한 다중 모달 통합을 보여준다.
- 지리적 분할을 통한 Expert 혼합 추론이 분포 시프트에 대한 강건성을 향상시키고 PA 전용 및 단순 PA+PO 베이스라인보다 우수하다.
- GeoLifeCLEF 2025에서 MoE는 베이스라인보다 더 높은 점수를 달성하고 GeoLifeCLEF 2024에서는 두 번째 점수를 능가하며, 이는 인디스트리뷰션과 아웃 오브 디스트리뷰션 시나리오 모두에서 효과를 시사한다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.