[論文レビュー] Tighnari v2: Mitigating Label Noise and Distribution Shift in Multimodal Plant Distribution Prediction via Mixture of Experts and Weakly Supervised Learning
この研究は PO データから疑似ラベルを集約し、スタック可能な三モーダルクロスアテンション融合、非対称損失、および専門家の混合(MoE)フレームワークを用いて、ラベルノイズと分布シフトを緩和し、植物分布予測のインディストリビューション内外のテストケースに対応することで Tighnari を拡張します。
Large-scale, cross-species plant distribution prediction plays a crucial role in biodiversity conservation, yet modeling efforts in this area still face significant challenges due to the sparsity and bias of observational data. Presence-Absence (PA) data provide accurate and noise-free labels, but are costly to obtain and limited in quantity; Presence-Only (PO) data, by contrast, offer broad spatial coverage and rich spatiotemporal distribution, but suffer from severe label noise in negative samples. To address these real-world constraints, this paper proposes a multimodal fusion framework that fully leverages the strengths of both PA and PO data. We introduce an innovative pseudo-label aggregation strategy for PO data based on the geographic coverage of satellite imagery, enabling geographic alignment between the label space and remote sensing feature space. In terms of model architecture, we adopt Swin Transformer Base as the backbone for satellite imagery, utilize the TabM network for tabular feature extraction, retain the Temporal Swin Transformer for time-series modeling, and employ a stackable serial tri-modal cross-attention mechanism to optimize the fusion of heterogeneous modalities. Furthermore, empirical analysis reveals significant geographic distribution shifts between PA training and test samples, and models trained by directly mixing PO and PA data tend to experience performance degradation due to label noise in PO data. To address this, we draw on the mixture-of-experts paradigm: test samples are partitioned according to their spatial proximity to PA samples, and different models trained on distinct datasets are used for inference and post-processing within each partition. Experiments on the GeoLifeCLEF 2025 dataset demonstrate that our approach achieves superior predictive performance in scenarios with limited PA coverage and pronounced distribution shifts.
研究の動機と目的
- PAデータとPOデータの両方を活用して植物分布データの希薄性とバイアスを解消する。
- 衛星画像パッチ内にPOラベルを集約する弱教師付き疑似ラベリング戦略を提案する。
- マルチモーダルデータ(衛星画像、表形式特徴、時系列)のためのスタック可能な三モーダルクロスアテンション融合を開発する。
- PAトレーニングとテストサンプル間の地理的分布シフトを扱う Mixture of Experts アプローチを導入する。
提案手法
- 衛星画像のバックボーンを Swin Transformer Base にアップグレードする。 表形式バックボーンとして TabM を使用し、時系列には Temporal Swin Transformer を保持する。 訓練データが全て PA の場合のみ適用されるオプションの近傍ラベル集約モダリティを導入する。 階層的クロスアテンションをスタック可能なシリアル三モーダルクロスアテンションモジュールに置換する。 多ラベル設定におけるラベルノイズとクラス不均衡を扱うためにアシンメトリック・ロス(ASL)を採用する。 PAデータに対する地理的近接性に基づいてテストサンプルを Mixture of Experts で分割し、分割ごとに異なるモデルを使用する。

実験結果
リサーチクエスチョン
- RQ1POデータを用いて多モーダル植物分布モデルに過度なラベルノイズを導入せずに活用する方法は?
- RQ2スタック可能な三モーダルクロスアテンション融合は従来のクロスアテンション設計よりも多モーダル統合性能を改善できるか?
- RQ3Mixture of Experts アプローチは地理的分布シフトとPOラベルノイズの下で予測を改善するか?
- RQ4バックボーンネットワークのアップグレード(Swin Base、TabM)と二段階訓練がPA/POデータ統合に与える影響は?
- RQ5この領域における豊富なネガティブと sparse positives の学習バランスにおいて、アシンメトリックロスの有効性はどの程度か?
主な発見
| モデル | 2024 プライベートスコア | 2024 公開スコア | 2025 プライベートスコア | 2025 公開スコア |
|---|---|---|---|---|
| PAのみ | 0.36908 | 0.37246 | 0.17290 | 0.20604 |
| PA + PO | 0.33335 | 0.33597 | 0.19107 | 0.21860 |
| MoE | 0.36908 | 0.37246 | 0.21689 | 0.24493 |
- 衛星パッチの地理的カバレッジに基づく疑似ラベル集約戦略はPOラベルノイズを低減し、ラベル空間をリモートセンシング特徴と揃えるのに役立つ。
- Swin Transformer Base と Temporal Swin Transformer はそれぞれ衛星データと時系列データの特徴抽出を優位にし、TabM は表形式特徴表現を改善する。
- スタック可能なシリアル三モーダルクロスアテンション融合は他の統合手法を上回り、多モーダル統合を改善する。
- 地理的分割を伴う Mixture of Experts 推論は分布シフトへのロバスト性を高め、PAのみおよびNAPA基準より良い性能を示す。
- GeoLifeCLEF 2025 では MoE がベースラインより高いスコアを達成し、GeoLifeCLEF 2024 では二位スコアを上回り、インディストリビューション内外の両方のシナリオで有効性を示す。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。