QUICK REVIEW

[論文レビュー] Depth-Enhanced Feature Pyramid Network for Occlusion-Aware Verification of Buildings from Oblique Images

Qing Zhu, Shengzhi Huang|arXiv (Cornell University)|Nov 26, 2020

Remote Sensing and LiDAR Applications参考文献 62被引用数 15

ひとこと要約

本論文は、斜め画像と3Dメッシュモデルからのカラーデータと深度データを統合することで、隠蔽を考慮した建物検証を向上させる深さ強化型特徴リフューザーネットワーク（FFP）を提案する。マルチスケール特徴とマルチビュー投票を統合することで、Zurichデータセットで98.1%の再現率と97.2%の正確性を達成し、ResNetとEfficientNetに比べて再現率で5%、適合率で2%優れている。これにより、最小限の手動レビューで変更された建物のほぼ完全な自動検出が可能になる。

ABSTRACT

Detecting the changes of buildings in urban environments is essential. Existing methods that use only nadir images suffer from severe problems of ambiguous features and occlusions between buildings and other regions. Furthermore, buildings in urban environments vary significantly in scale, which leads to performance issues when using single-scale features. To solve these issues, this paper proposes a fused feature pyramid network, which utilizes both color and depth data for the 3D verification of existing buildings 2D footprints from oblique images. First, the color data of oblique images are enriched with the depth information rendered from 3D mesh models. Second, multiscale features are fused in the feature pyramid network to convolve both the color and depth data. Finally, multi-view information from both the nadir and oblique images is used in a robust voting procedure to label changes in existing buildings. Experimental evaluations using both the ISPRS benchmark datasets and Shenzhen datasets reveal that the proposed method outperforms the ResNet and EfficientNet networks by 5\% and 2\%, respectively, in terms of recall rate and precision. We demonstrate that the proposed method can successfully detect all changed buildings; therefore, only those marked as changed need to be manually checked during the pipeline updating procedure; this significantly reduces the manual quality control requirements. Moreover, ablation studies indicate that using depth data, feature pyramid modules, and multi-view voting strategies can lead to clear and progressive improvements.

研究の動機と目的

本研究の主な目的は、写真測量によるメッシュモデルからの3D深度情報を利用することで、建物変化検出における誤検出を低減することにある。
都市部の建物におけるスケールの変動に対処するため、屋根と外壁の両方を統合的に扱うマルチスケール特徴リフューザーネットワークを提案する。
耐性を高めるために、スティルおよび斜め画像からのマルチビュー情報を利用し、投票戦略を用いて統合する。
変更された建物を100%の真正陽性率で検出するとともに、誤検出率を低く保つことが目的であり、手動による品質管理を最小限に抑える。

提案手法

構造から運動（SfM）およびマルチビューステレオ（MVS）パイプラインを用いて3Dメッシュモデルを再構築する。
既知のカメラポーズを用いて、3Dメッシュモデルから対応する斜め画像の視点に深度マップをレンダリングする。
カラーデータと深度データを統合し、マルチスケール特徴学習用の追加融合層を備えた変更された特徴リフューザーネットワーク（FFP）の入力として使用する。
深度に基づく隠蔽テストにより可視パッチを抽出し、FFPがそれらを屋根、外壁、またはバックグラウンドに分類する。
複数のビュー（スティルおよび斜め）からの予測を統合する、頑健なマルチビュー投票戦略を採用することで、検出の信頼性を向上させる。
データベースから抽出した押し出し処理を施した建物アウトラインを、すべての可視ビューに投影し、パッチ抽出と学習をガイドする。

実験結果

リサーチクエスチョン

RQ13Dメッシュモデルからの深さ強化特徴は、曖昧な都市部のテクスチャにおいて建物特徴の識別性を向上させるか？
RQ2色と深度データを統合した特徴リフューザーネットワークは、ResNet や EfficientNet といった標準的なCNNに比べ、建物検証で優れた性能を示すか？
RQ3マルチビュー投票戦略は、誤検出を低減するとともに、変更された建物の100%の検出を実現するのにどの程度有効か？
RQ4深さデータとマルチスケール特徴統合を組み込むことで、さまざまな建物サイズや複雑な隠蔽状況において、性能がどの程度向上するか？

主な発見

提案されたFFPネットワークは、ISPRS Zurichデータセットで98.1%の再現率と97.2%の正確性を達成し、ResNetに比べて再現率で5.7ポイント、正確性で5.0ポイント向上した。
Shenzhenデータセットでは、再現率96.5%、正確性95.4%を達成し、ResNetに比べてそれぞれ6.5ポイントと7.0ポイントの上回りを記録した。
アブレーションスタディの結果、深さデータ単体でもすべてのネットワークで正確性が1%以上向上したことが確認され、FFPでは最も顕著な向上が得られた。
マルチビュー投票戦略により、変更された建物の真正陽性検出率が100%に達し、誤検出率も低く抑えられ、単一ビュー解析による曖昧さを効果的に解消した。
建物のサイズにかかわらず一貫した性能を示し、小規模な建物（100 m²未満）に対しても92%以上の正答率を維持しており、スケール変動に対する耐性が確認された。
深さデータの統合、特徴リフューザー統合、マルチビュー投票の統合により、検出性能に段階的で測定可能な改善が見られた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。