[論文レビュー] GeoSAM: Fine-tuning SAM with Multi-Modal Prompts for Mobility Infrastructure Segmentation
GeoSAMはゼロショットSAMの dense prompts と domain CNN の sparse prompts を用いてSAMを微調整し、地理画像の道路・歩行者インフラをセグメント。ゼロショットSAMとTile2Netを上回る。
In geographical image segmentation, performance is often constrained by the limited availability of training data and a lack of generalizability, particularly for segmenting mobility infrastructure such as roads, sidewalks, and crosswalks. Vision foundation models like the Segment Anything Model (SAM), pre-trained on millions of natural images, have demonstrated impressive zero-shot segmentation performance, providing a potential solution. However, SAM struggles with geographical images, such as aerial and satellite imagery, due to its training being confined to natural images and the narrow features and textures of these objects blending into their surroundings. To address these challenges, we propose Geographical SAM (GeoSAM), a SAM-based framework that fine-tunes SAM using automatically generated multi-modal prompts. Specifically, GeoSAM integrates point prompts from a pre-trained task-specific model as primary visual guidance, and text prompts generated by a large language model as secondary semantic guidance, enabling the model to better capture both spatial structure and contextual meaning. GeoSAM outperforms existing approaches for mobility infrastructure segmentation in both familiar and completely unseen regions by at least 5\% in mIoU, representing a significant leap in leveraging foundation models to segment mobility infrastructure, including both road and pedestrian infrastructure in geographical images. The source code can be found in this GitHub Repository: https://github.com/rafiibnsultan/GeoSAM.
研究の動機と目的
- Segment Anything Model (SAM) を地理画像の移動性インフラセグメンテーション(道路と歩行者インフラ)へ拡張する。
- パラメータ効率的微調整(PEFT)を用いた sparse-prompt および dense-prompt ベースの微調整パイプラインを開発する。
- ドメイン特有の CNN エンコーダとゼロショット prompts からプロンプト生成を自動化し、空中画像でのセグメンテーションを改善する。
提案手法
- 凍結エンコーダを持つ SAM を用いる;デコーダのみを PEFT で微調整。
- 道路・歩行者クラスの Tile2Net ベースの擬似ラベルから自動的に sparse prompts を生成。
- 画像特徴埋め込みを SAM 互換の dense prompts に変換してゼロショット SAM から dense prompts を生成。
- Dice Loss と Focal Loss を組み合わせた Dice Focal loss でクラス不均衡を扱いながら訓練。
- エンドツーエンド推論は CNN エンコーダからの sparse prompts と、微調整済みデコーダを用いた zero-shot SAM からの dense prompts を組み合わせる。

実験結果
リサーチクエスチョン
- RQ1SAM を全面再訓練せずに、地理画像の多クラス移動インフラセグメンテーションへ適用できるか。
- RQ2域内 CNN 由来の sparse prompts と zero-shot SAM 由来の dense prompts の組み合わせで、道路・歩行者インフラのセグメンテーション精度が向上するか。
- RQ3この地理空間タスクにおける SAM のデコーダの PEFT ベース微調整はどれほど有効か。
- RQ4見知らぬ都市(例:訓練はワシントンDC、テストはケンブリッジ、MA)への一般化性はどうか。
主な発見
- GeoSAM は Washington DC テストセットで Tile2Net より mIoU が 17%、mAP が 21% 向上。
- GeoSAM は roads と pedestrian infrastructure の両方で、ゼロショット SAM を大きく上回る mIoU および mAP を達成。
- GeoSAM は CNN- および ViT ベースのベンチマーク(例:UNet++, Swin UNETR)を、両クラスの mIoU および mAP で大幅に上回る。
- データシフトの影響により一般化都市(Cambridge, MA)では性能が低下するが、全体として他のベースラインを上回る。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。