[論文レビュー] Foundation Models for Remote Sensing and Earth Observation: A Survey
本調査はリモートセンシング基盤モデル(RSFM)を概説し、VFMs、VLMs、LLMs、およびその他のRSFMを分類し、データセットと手法を調査し、課題と今後の方向性を概説する。
Remote Sensing (RS) is a crucial technology for observing, monitoring, and interpreting our planet, with broad applications across geoscience, economics, humanitarian fields, etc. While artificial intelligence (AI), particularly deep learning, has achieved significant advances in RS, unique challenges persist in developing more intelligent RS systems, including the complexity of Earth's environments, diverse sensor modalities, distinctive feature patterns, varying spatial and spectral resolutions, and temporal dynamics. Meanwhile, recent breakthroughs in large Foundation Models (FMs) have expanded AI's potential across many domains due to their exceptional generalizability and zero-shot transfer capabilities. However, their success has largely been confined to natural data like images and video, with degraded performance and even failures for RS data of various non-optical modalities. This has inspired growing interest in developing Remote Sensing Foundation Models (RSFMs) to address the complex demands of Earth Observation (EO) tasks, spanning the surface, atmosphere, and oceans. This survey systematically reviews the emerging field of RSFMs. It begins with an outline of their motivation and background, followed by an introduction of their foundational concepts. It then categorizes and reviews existing RSFM studies including their datasets and technical contributions across Visual Foundation Models (VFMs), Visual-Language Models (VLMs), Large Language Models (LLMs), and beyond. In addition, we benchmark these models against publicly available datasets, discuss existing challenges, and propose future research directions in this rapidly evolving field. A project associated with this survey has been built at https://github.com/xiaoaoran/awesome-RSFMs .
研究の動機と目的
- 従来のタスク固有モデルを超える多様なRSモダリティとタスクに対応できるRSFMの開発を促進する。
- RSFMに関連する基礎概念、アーキテクチャ、学習パラダイムを要約する。
- VFMs、VLMs、LLMs にわたる既存の RSFM 研究、データセット、技術的貢献を整理・分析する。
- 公開されているRSデータセット上でRSFMをベンチマークし、現在の研究の制限とギャップについて議論する。
- 地球観測アプリケーションにおけるRSFMを進展させるための今後の研究課題を提案する。
提案手法
- RS応用のためにRSFMをVFMs、VLMs、LLMs、およびそれ以外に分類する。
- 事前학習アプローチ(教師あり、自己教師あり)とRSデータの特性への整合性をレビューする。
- RSFMsにおけるRSセンサモダリティ(RGB、MSI、HSI、SAR、LiDAR、DSM、TIR)を分析する。
- RSFMに使用されるデータソースと事前学習データセット、規模と多様性を含めて検討する。
- 典型的なRS解釈タスク(シーン分類、セマンティックセグメンテーション、検出、変化検出、VQA、キャプション生成、グラウンディング)を検討する。
- 性能ベンチマークを要約し、課題と今後の方向性を特定する。
実験結果
リサーチクエスチョン
- RQ1RSFMの主なカテゴリーは何で、モダリティとダウンストリームの能力はどのように異なるのか?
- RQ2RSFMを開発するためにどのデータセットと事前学習戦略が用いられており、それらがダウンストリームの性能にどう影響するか?
- RQ3RSデータへのファウンデーションモデルの適用における主な課題は何か、将来の研究に有望な方向性は何か?
- RQ4シーン分類、セグメンテーション、検出、変化検出、VQA などの一般的なRSタスクに対してRSFMはどのように性能を示すか?
- RQ5多様なEOアプリケーションに向けてRSFMを発展させるために推奨される研究方向は何か。
主な発見
- RSFMsはVFMs、VLMs、LLMs、その他のRSFMsに分類され、それぞれ異なるデータモダリティとタスクを持つ。
- より大規模で多様なRS事前学習データセットへの傾向が見られ、自己教師あり学習の使用が増えている一方で、規模は一般ドメインFMにはまだ及ばない。
- RSデータは自然画像とのドメインギャップを持ち、ゼロショット転送の課題を生み、専門的な適応を必要とする。
- SAMや他のセグメンテーション指向のツールが、モダリティを跨ぐprompt可能なセグメンテーションにRSに関連するとして議論されている。
- 調査は事前学習に使用された複数のRSデータセットを要約し、センサモダリティとタスクを横断してRSFMをベンチマークする。
- 今後の方向性には、RS専用アーキテクチャの改善、マルチモーダル統合、拡張可能なRSFM事前学習の推進が含まれる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。