[論文レビュー] Advancing Plain Vision Transformer Towards Remote Sensing Foundation Model
この論文は、大規模な RS データセット( ~100M パラメータ )で MAE を用いてプレトレーニングされたプレーンな Vision Transformer (ViT) を用い、RS タスクへ適応するための回転 Varied-Size Window Attention (RVSA) を導入し、DOTA-V1.0 での物体検出を最先端に達成するとともに、分類・セグメンテーションの結果も競争力があり、データ効率が改善されている。
Large-scale vision foundation models have made significant progress in visual tasks on natural images, with vision transformers being the primary choice due to their good scalability and representation ability. However, large-scale models in remote sensing (RS) have not yet been sufficiently explored. In this paper, we resort to plain vision transformers with about 100 million parameters and make the first attempt to propose large vision models tailored to RS tasks and investigate how such large models perform. To handle the large sizes and objects of arbitrary orientations in RS images, we propose a new rotated varied-size window attention to replace the original full attention in transformers, which can significantly reduce the computational cost and memory footprint while learning better object representation by extracting rich context from the generated diverse windows. Experiments on detection tasks show the superiority of our model over all state-of-the-art models, achieving 81.24% mAP on the DOTA-V1.0 dataset. The results of our models on downstream classification and segmentation tasks also show competitive performance compared to existing advanced methods. Further experiments show the advantages of our models in terms of computational complexity and data efficiency in transferring.
研究の動機と目的
- リモートセンシングデータ上でプレーンViTs(約100Mパラメータ)をRSタスク用にプレトレーニングする実現性を示す。
- 非階層的(プレーン)ViT が適切なプレトレーニングで競争力のある RS タスク性能を達成できるかを調査する。
- RS 画像の任意の向きとスケールを扱う RVSA を開発しつつ、計算量を削減する。
- プリトレーニング済みのプレーンViTs の RS検出・分類・セグメンテーションタスクへの移行性、効率性、頑健性を評価する。
提案手法
- 百万+1000 マイルドAID で MAE によるプレトレーニングを unlabeled 設定で行い、プレーン ViT および ViTAE バックボーン(約100M パラメータ)を作成する。
- RS データの任意の向きに対応するため、ファイナル微調整時には全自己注意を Rotated Varied-Size Attention (RVSA) に置換する。
- 学習されたウィンドウ構成に回転角度を導入し、向き付きで多様なサイズの注意ウィンドウを可能にする。
- RS バックボーンを downstream タスクに適合させるため、MHSA を RVSA(およびその派生)に置換する。
- シーン分類(UCM、AID、NWPU)、物体検出(DOTA-V1.0、DIOR-R)、セグメンテーションを含む RS タスクで、標準 RS フレームワークを用いてトレーニングと評価を行う。
実験結果
リサーチクエスチョン
- RQ1プレーン ViT バックボーンを RS データで MAE で事前学習して、階層化構造を持たない場合でも RS タスクで競争力のある結果を得られるか。
- RQ2RVSA は、固定ウィンドウ注意と比較して、任意の向き・スケールの RS 画像中の物体をモデル化する能力を改善するか。
- RQ3プレトレーニングのスケールとマスク比が、プレーンViTs の RS 下流性能に与える影響は何か。
- RQ4RVSA を備えたプレーンViTs は、精度・効率・転移性の点で最先端の RS モデルと比べてどの程度優れているか。
主な発見
- プレーンViTs(ViT-B および ViTAE-B)を MillionAID で MAE によってプレトレーニングすると、ファインチューニング後に RS タスク性能が競争力を持つ。
- RVSA は注意の回転・可変サイズウィンドウを実現することで RS 物体検出を大幅に改善し、DOTA-V1.0 で 81.24% mAP を達成。
- RVSA ベースの派生は RS のシーン分類およびセグメンテーションタスクで強力な性能を示し、既存の先進手法に対して競争力のある結果を得ている。
- このアプローチは RS タスクへの転移時に計算量とデータ効率の点で利点を示す。
- RVSA のウィンドウサイズが ablation で DOTA-V1.0 と DIOR-R のピーク mAP を 7 のウィンドウサイズで達成することを示し、適切なウィンドウ構成の重要性を示している。
- この方法はウィンドウベースの注意を用いて FLOPs とメモリを削減しつつ、RS 画像の大規模スケールにも対応できる。
- 本研究はプレーンViTs を、RS の特性に適した特別な注意機構を備えた有効な基盤モデルバックボーンとして位置づけている。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。