QUICK REVIEW

[論文レビュー] Poverty Mapping Using Convolutional Neural Networks Trained on High and Medium Resolution Satellite Images, With an Application in Mexico

Boris Babenko, Jonathan Hersh|arXiv (Cornell University)|Nov 16, 2017

Impact of Light on Environment and Health参考文献 3被引用数 48

ひとこと要約

本稿では、メキシコの自治体レベルにおける貧困を推定するために、高解像度および中解像度の衛星画像を用いて畳み込みニューラルネットワーク（CNNs）を訓練する手法を提案する。Planetの衛星画像から得られる土地利用分類とCNNの予測を組み合わせることで、10%の検証サンプルにおいて貧困の変動の最大57%を説明でき、深層学習を用いた衛星データによるエンドツーエンドの貧困マッピングの可能性を示している。

ABSTRACT

Mapping the spatial distribution of poverty in developing countries remains an important and costly challenge. These "poverty maps" are key inputs for poverty targeting, public goods provision, political accountability, and impact evaluation, that are all the more important given the geographic dispersion of the remaining bottom billion severely poor individuals. In this paper we train Convolutional Neural Networks (CNNs) to estimate poverty directly from high and medium resolution satellite images. We use both Planet and Digital Globe imagery with spatial resolutions of 3-5 sq. m. and 50 sq. cm. respectively, covering all 2 million sq. km. of Mexico. Benchmark poverty estimates come from the 2014 MCS-ENIGH combined with the 2015 Intercensus and are used to estimate poverty rates for 2,456 Mexican municipalities. CNNs are trained using the 896 municipalities in the 2014 MCS-ENIGH. We experiment with several architectures (GoogleNet, VGG) and use GoogleNet as a final architecture where weights are fine-tuned from ImageNet. We find that 1) the best models, which incorporate satellite-estimated land use as a predictor, explain approximately 57% of the variation in poverty in a validation sample of 10 percent of MCS-ENIGH municipalities; 2) Across all MCS-ENIGH municipalities explanatory power reduces to 44% in a CNN prediction and landcover model; 3) Predicted poverty from the CNN predictions alone explains 47% of the variation in poverty in the validation sample, and 37% over all MCS-ENIGH municipalities; 4) In urban areas we see slight improvements from using Digital Globe versus Planet imagery, which explain 61% and 54% of poverty variation respectively. We conclude that CNNs can be trained end-to-end on satellite imagery to estimate poverty, although there is much work to be done to understand how the training process influences out of sample validation.

研究の動機と目的

衛星画像と深層学習を用いて、高解像度の貧困マップをスケーラブルかつコスト効率よく生成するための方法を開発すること。
畳み込みニューラルネットワーク（CNN）が、外部の社会経済的指標に依存せずに、衛星画像から直接貧困を推定できるかどうかを評価すること。
異なる衛星データソース（Planet：3–5 m解像度、Digital Globe：50 cm解像度）が貧困予測に与える影響を比較すること。
衛星画像から抽出した土地利用分類を、貧困予測モデルの追加特徴量として組み込むことで、モデル性能に与える影響を評価すること。
訓練済み自治体とは異なる地域（特にMCS-ENIGH調査対象外地域）へのモデルの一般化性能を調査すること。

提案手法

200万km²にわたるメキシコ全域の高解像度（3–5 m）のPlanetおよび中解像度（50 cm）のDigital Globe衛星画像を用いて、深層畳み込みニューラルネットワーク（CNN）を訓練した。
ドメインのズレを避けるため、近赤がんバンドを除いて、事前学習済みImageNet重みをGoogleNetアーキテクチャに微調整するトランスファーラーニング手法を採用した。
Planet画像から抽出した土地利用分類を、モデル性能向上のための補助入力として組み込んだ。
2014年のMCS-ENIGH調査に含まれる896自治体を訓練データとして使用し、10%のホールドアウト検証サンプルで評価した。全2,456自治体を対象とした全サンプル評価も実施した。
2015年の間接人口調査およびMCS-ENIGH調査データから得た基準貧困率と予測貧困率の間のR²を用いて、モデルの性能を評価した。
複数のアーキテクチャ（GoogleNetおよびVGGの変種）とデータモダリティ（RGBのみ、近赤がんを含む・含まない）を比較し、内部開発セットの性能に基づいて最良の構成を選定した。

実験結果

リサーチクエスチョン

RQ1エンドツーエンドの畳み込みニューラルネットワークが、衛星画像を学習データとして用いることで、メキシコの自治体レベルにおける貧困率を正確に予測できるか？
RQ2衛星画像から抽出した土地利用分類の組み込みが、CNNベースの貧困予測モデルの予測性能にどのように影響するか？
RQ3衛星画像の解像度およびカバー範囲（例：Planet対Digital Globe）が、貧困推定の精度に顕著な影響を与えるか？
RQ4なぜ、訓練済み自治体とは異なる地域（非MCS-ENIGH地域）に適用した場合、モデル性能が著しく低下するのか？
RQ5CNNは都市部と農村部の両方でどれほど一般化できるか？また、都市部と農村部における性能の違いはどの程度か？

主な発見

Planet画像からのCNN予測と土地利用分類を組み合わせた最良のモデルは、MCS-ENIGH自治体の10%検証サンプルにおいて、貧困率の変動の57%を説明した。
全2,456自治体のMCS-ENIGH地域全体にわたる評価では、モデルの説明力は44%に低下し、一般化性能の著しい低下が示された。
CNN予測のみでは、10%検証サンプルで貧困の変動の47%を説明でき、全MCS-ENIGH自治体では37%の説明力にとどまった。
都市部では、Digital Globe画像がPlanet画像よりも高い性能（R² = 0.61）を示し、高解像度が都市部の貧困推定に有利であることが示唆された。
非MCS-ENIGH自治体では性能が著しく低下し、R²値は全体で0.28にまで低下した。これは、サンプル外への一般化性能が低いことを示している。
近赤がんバンドを学習に含めても性能向上が見られず、ドメインのズレ（ImageNetのRGBのみの分布とのズレ）のため、学習から除外された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。