Skip to main content
QUICK REVIEW

[論文レビュー] Foundation Models in Remote Sensing: Evolving from Unimodality to Multimodality

Danfeng Hong, Chenyu Li|arXiv (Cornell University)|Mar 1, 2026
Geographic Information Systems Studies被引用数 0
ひとこと要約

この論文は remote sensing の foundation models を包括的に調査し、単一モードから多モーダルへの進化を追跡し、実務適用のための実践的なガイダンスを提供します。

ABSTRACT

Remote sensing (RS) techniques are increasingly crucial for deepening our understanding of the planet. As the volume and diversity of RS data continue to grow exponentially, there is an urgent need for advanced data modeling and understanding capabilities to manage and interpret these vast datasets effectively. Foundation models present significant new growth opportunities and immense potential to revolutionize the RS field. In this paper, we conduct a comprehensive technical survey on foundation models in RS, offering a brand-new perspective by exploring their evolution from unimodality to multimodality. We hope this work serves as a valuable entry point for researchers interested in both foundation models and RS and helps them launch new projects or explore new research topics in this rapidly evolving area. This survey addresses the following three key questions: What are foundation models in RS? Why are foundation models needed in RS? How can we effectively guide junior researchers in gaining a comprehensive and practical understanding of foundation models in RS applications? More specifically, we begin by outlining the background and motivation, emphasizing the importance of foundation models in RS. We then review existing foundation models in RS, systematically categorizing them into unimodal and multimodal approaches. Additionally, we provide a tutorial-like section to guide researchers, especially beginners, on how to train foundation models in RS and apply them to real-world tasks. The survey aims to equip researchers in RS with a deeper and more efficient understanding of foundation models, enabling them to get started easily and effectively apply these models across various RS applications.

研究の動機と目的

  • リモートセンシングにおける foundation models とは何か、EO データにとってなぜ重要かを説明する。
  • RS foundation models を単一モードと多モードの group に体系的に分類する。
  • RS foundation models の課題、機会、および未解決の問題を強調する。
  • 実際のタスクで pretrained RS foundation models を訓練・適用するためのチュートリアル風ガイドを提供する。

提案手法

  • 既存の RS foundation models を単一モードと多モードに分類・整理する。
  • 論文の動向、掲載誌、地理分布の統計的概要を用いて傾向を分析する。
  • RS foundation models における self-supervised pretraining と fine-tuning のパラダイムを説明する。
  • RS foundation models で用いられる代表的な pretraining データセットとモダリティを要約する。
  • RS タスクにおいて foundation models を訓練・適用する研究者のための実践的チュートリアルセクションを提供する。

実験結果

リサーチクエスチョン

  • RQ1リモートセンシングにおける foundation models とは何か、なぜ必要なのか。
  • RQ2RS foundation models はどのように単一モードから多モードへと進化してきたのか。推進要因は何か。
  • RQ3現実世界のタスクで RS foundation models を訓練・展開する際に役立つ実用的ガイダンスは何か。
  • RQ4採用を妨げる主要な課題は何か、どう対処すべきか。

主な発見

  • RS の foundation models は単一モードから多モードへ移行しており、さまざまなデータソースの統合が進んでいる。
  • RS foundation model の研究の大部分は arXiv を介して普及しており、IEEE TGRS および CVPR が顕著な発表先である。
  • 中国、米国、オーストラリアが RS foundation model 研究の主要な貢献国である。
  • self-supervised pretraining + fine-tuning は下流の RS タスクへの転移を可能にする支配的な学習パラダイムである。
  • RS foundation models を支えるベンチマーク、モデルリポジトリ、標準化された評価データセットのエコシステムが拡大している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。