[논문 리뷰] A High-Level Survey of Optical Remote Sensing
이 조사은 RGB 광학 원격 탐지에 대한 모달리티 중심의 개요를 제공하며, 주요 작업, 데이터셋, 벤치마크, 그리고 foundation 모델 및 다중 모달 비전–언어 접근 방식과 같은 신흥 추세를 다룹니다.
In recent years, significant advances in computer vision have also propelled progress in remote sensing. Concurrently, the use of drones has expanded, with many organizations incorporating them into their operations. Most drones are equipped by default with RGB cameras, which are both robust and among the easiest sensors to use and interpret. The body of literature on optical remote sensing is vast, encompassing diverse tasks, capabilities, and methodologies. Each task or methodology could warrant a dedicated survey. This work provides a comprehensive overview of the capabilities of the field, while also presenting key information, such as datasets and insights. It aims to serve as a guide for researchers entering the field, offering high-level insights and helping them focus on areas most relevant to their interests. To the best of our knowledge, no existing survey addresses this holistic perspective.
연구 동기 및 목표
- 다수의 작업 및 응용을 아우르는 RGB 중심의 광학 원격 탐지에 대한 통합적 개요를 제공합니다.
- RGB ORS 작업을 위한 공개적으로 이용 가능한 데이터셋과 벤치마크를 요약합니다.
- Foundation 모델과 같은 현재의 추세를 식별하고 RGB 기반 ORS의 개방형 연구 주제 및 격차를 제시합니다.]
- method: [
- Categorizes ORS tasks into classification, detection, segmentation, change detection, vision–language, editing, counting, and other tasks.
- Reviews datasets publicly available for each task and their characteristics (resolution, domain, classes, size).
- Synthesizes recent methodological trends, including CNNs, transformers, hybrid architectures, and foundation models.
- Analyzes state-of-the-art performance per task on popular datasets to derive architectural and methodological insights.
- Discusses open research questions and future directions for RGB-based ORS.
제안 방법
- 작업을 분류: 분류, 탐지, 분할, 변화 탐지, 비전–언어, 편집, 계산, 및 기타 작업으로 구분합니다.
- 각 작업별로 공개적으로 이용 가능한 데이터셋과 그 특성(해상도, 도메인, 클래스, 크기)을 검토합니다.
- CNN, 트랜스포머, 하이브리드 아키텍처, foundation 모델을 포함한 최근의 방법론적 추세를 종합합니다.
- 인기 데이터셋에서 작업별 최첨단 성능을 분석하여 아키텍처 및 방법론적 통찰을 도출합니다.
- RGB 기반 ORS를 위한 개방형 연구 질문 및 향후 방향을 논의합니다.

실험 결과
연구 질문
- RQ1핵심 RGB 기반 광학 원격 탐지 작업은 무엇이며 어떻게 조직되어 있나요?
- RQ2각 RGB ORS 작업에 가장 대표적인 데이터셋과 벤치마크는 무엇인가요?
- RQ3작업 전반에 걸쳐 지배적인 아키텍처 트렌드(CNN, 트랜스포머, 하이브리드)와 foundation 모델이 RGB ORS에 어떤 영향을 미치나요?
- RQ4RGB 원격 탐지에서의 현재 격차와 개방된 연구 방향은 효율성, 강건성, 다중 작업 학습 등을 포함하여 무엇인가요?
주요 결과
| Task | Dataset | Metric | Method | Value |
|---|---|---|---|---|
| Classification | NWPU-RESISC45 | OA | MGDNet | 91.41 |
| Classification | LoveDA | mIoU | GeRSP | 50.56 |
| Classification | LoveDA | mIoU | EMRT | 50.89 |
| Horizontal Object Detection | DIOR | mAP 50 | FSoD-Net | 71.80 |
| Horizontal Object Detection | DIOR | mAP 50 | RSADet | 72.20 |
| Oriented Object Detection | DOTA v1 | mAP 50 | S2ANet | 79.42 |
| Oriented Object Detection | DOTA v2 | mAP 50 | DODNet | 80.66 |
| Semantic Segmentation | LoveDA | mIoU | GeRSP | 50.56 |
| Instance Segmentation | WHU-Building | mIoU | MRANet | 90.59 |
| Binary Change Detection | s2looking | mIoU | SAM-CD | 48.29 |
| Semantic Change Detection | second | mIoU | HGINet | 70.76 |
| Image Captioning | RS5M | - | RS5M | - |
| Visual Grounding | RS5M-RSVG | - | RSVG | - |
- CNN은 로컬 패턴과 효율성 면에서 우수하고, 트랜스포머는 글로벌 컨텍스트 및 이질적 장면을 처리합니다.
- 하이브리드 CNN–트랜스포머 아키텍처가 보완적인 강점으로 인해 작업 전반에서 점점 더 지배적입니다.
- 원격 sensing에서 foundation 모델이 부상하고 있으며, RGB 도메인 모델 및 다중 모달 기능을 제안한 사례가 다수지만, 작업별 감독 학습은 여전히 강합니다.
- 비전–언어 작업은 트랜스포머 설계와 정렬되며 대규모 사전학습 및 다중 모달 정렬 전략의 이점을 얻습니다.
- RGB 이미지는 여전히 플랫폼을 지배하여 확장 가능하고 일반화 가능한 학습 프레임워크에 대한 강조를 촉진합니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.