[論文レビュー] Sparse Data Tree Canopy Segmentation: Fine-Tuning Leading Pretrained Models on Only 150 Images
本研究では五つの現代的アーキテクチャ(YOLOv11, Mask R-CNN, DeepLabV3, Swin-UNet, DINOv2)を極端なデータ不足下の樹冠域セグメンテーションに適用し、150枚の画像でファインチューニングした場合、CNNベースのモデル(特に YOLOv11 および Mask R-CNN)がトランスフォーマーベースのモデルよりも優れていることを示した。
Tree canopy detection from aerial imagery is an important task for environmental monitoring, urban planning, and ecosystem analysis. Simulating real-life data annotation scarcity, the Solafune Tree Canopy Detection competition provides a small and imbalanced dataset of only 150 annotated images, posing significant challenges for training deep models without severe overfitting. In this work, we evaluate five representative architectures, YOLOv11, Mask R-CNN, DeepLabv3, Swin-UNet, and DINOv2, to assess their suitability for canopy segmentation under extreme data scarcity. Our experiments show that pretrained convolution-based models, particularly YOLOv11 and Mask R-CNN, generalize significantly better than pretrained transformer-based models. DeeplabV3, Swin-UNet and DINOv2 underperform likely due to differences between semantic and instance segmentation tasks, the high data requirements of Vision Transformers, and the lack of strong inductive biases. These findings confirm that transformer-based architectures struggle in low-data regimes without substantial pretraining or augmentation and that differences between semantic and instance segmentation further affect model performance. We provide a detailed analysis of training strategies, augmentation policies, and model behavior under the small-data constraint and demonstrate that lightweight CNN-based methods remain the most reliable for canopy detection on limited imagery.
研究の動機と目的
- 非常に限られたデータで樹木冠域セグメンテーションを最もうまく扱える現代的アーキテクチャを評価する。
- 小データのリモートセンシングタスクにおける帰納バイアス、事前訓練、およびモデル容量が一般化に与える影響を分析する。
- データ不足時におけるインスタンス分割とセマンティック分割のアプローチを比較し、樹冠マッピングのモデル選択を導く。
提案手法
- 5つのアーキテクチャを比較する:YOLOv11 Seg、Mask R-CNN、DeepLabV3、Swin-UNet、DINOv2。
- Solafune 150-image canopyデータセットを用いて4:1の訓練/検証分割で事前学習済み重みをファインチューニングする。
- DINOv2のバックボーンを凍結したまま、密結合セグメンテーションヘッドへ適応させる。
- 検証でのピクセルレベル精度と隠れテストセットでの重み付きmAP(IoUベース)で評価する。
- 小データ制約下での訓練ダイナミクスの定性的結果と分析を提供する。
実験結果
リサーチクエスチョン
- RQ1極端なデータ不足下の樹冠域セグメンテーションにおいて、どの現代的アーキテクチャが最良のインスタンス分割性能を提供するか。
- RQ2150枚のリモートセンシングデータセットに対する一般化に、帰納バイアス(CNN対Transformer)および事前訓練レジームがどのように影響するか。
- RQ3この小規模データの樹冠タスクにおいて、セマンティック分割モデルがインスタンスレベルの指標で劣る理由は何か。
主な発見
- CNNベースのモデル(YOLOv11 および Mask R-CNN)は、トランスフォーマーベースのモデルよりもテストセットでの重み付きmAPが高い。
- YOLOv11 Large は最高のテストmAP 0.281 を達成し、より大きなバリアントほど一般に小型より良い性能を示す。
- Mask R-CNN はテスト mAP が 0.219 で、安定した訓練と適切な一般化を示す。
- DeepLabV3、Swin-UNet、および DINOv2 は、セマンティック分割とインスタンス分割の違いおよびデータ寄りのトランスフォーマーの性質のため、テスト mAPで劣る。
- 検証時の mAP は検証セットが小さいため一般化を過小評価する傾向があり、より大きなCNNはタスクの複雑さをよりよく捉える。
- 定性的結果は、CNNベースのアーキテクチャが領域ベースの偽陰影(false negatives)に対して感度が低いことを示唆する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。