Skip to main content
QUICK REVIEW

[論文レビュー] Using Deep Learning and Google Street View to Estimate the Demographic Makeup of the US

Timnit Gebru, Jonathan Krause|arXiv (Cornell University)|Feb 22, 2017
Video Surveillance and Tracking Methods参考文献 5被引用数 30
ひとこと要約

本論文は、5000万枚のストリートレベル画像を用いて米国の人口統計および社会経済的統計を高空間分解能で推定する深層学習手法を提案する。200都市にわたる5000万枚のGoogleストリートビュー画像から車両のメーカー、モデル、年式を分析することで、収入、人種、教育水準、投票行動の予測に高い精度を達成。特に、15分間の走行でピックアップトラックよりセダンの割合が多い地域では、その選挙区で民主党に投票する可能性が88%に上昇する。

ABSTRACT

The United States spends more than $1B each year on initiatives such as the American Community Survey (ACS), a labor-intensive door-to-door study that measures statistics relating to race, gender, education, occupation, unemployment, and other demographic factors. Although a comprehensive source of data, the lag between demographic changes and their appearance in the ACS can exceed half a decade. As digital imagery becomes ubiquitous and machine vision techniques improve, automated data analysis may provide a cheaper and faster alternative. Here, we present a method that determines socioeconomic trends from 50 million images of street scenes, gathered in 200 American cities by Google Street View cars. Using deep learning-based computer vision techniques, we determined the make, model, and year of all motor vehicles encountered in particular neighborhoods. Data from this census of motor vehicles, which enumerated 22M automobiles in total (8% of all automobiles in the US), was used to accurately estimate income, race, education, and voting patterns, with single-precinct resolution. (The average US precinct contains approximately 1000 people.) The resulting associations are surprisingly simple and powerful. For instance, if the number of sedans encountered during a 15-minute drive through a city is higher than the number of pickup trucks, the city is likely to vote for a Democrat during the next Presidential election (88% chance); otherwise, it is likely to vote Republican (82%). Our results suggest that automated systems for monitoring demographic trends may effectively complement labor-intensive approaches, with the potential to detect trends with fine spatial resolution, in close to real time.

研究の動機と目的

  • アメリカのコミュニティ調査(ACS)のような伝統的な人口統計調査は最大5年ものデータ遅延を抱えるが、これを低コストでリアルタイムに代替できる手法の開発。
  • 公に利用可能なストリートレベル画像と深層学習を活用し、地域レベルでの社会経済的・政治的動向を推定すること。
  • 車両の属性(メーカー、モデル、年式、車両タイプなど)が収入、人種、教育水準、投票行動といった人口統計変数の強力な代理指標であることを示すこと。
  • 少数の都市からのラベル付き調査データのみを用いて全米の郵便番号圏に一般化可能な全国的人口統計推定を可能にすること。
  • 交差検証とACSおよび選挙データの真値との比較を通じて、本手法の予測能力を厳密に検証すること。

提案手法

  • 本手法は、200の米国都市で収集された5000万枚のGoogleストリートビュー画像内の車両を検出するために可変部分モデル(DPM)を用いる。
  • 畳み込みニューラルネットワーク(CNN)が、メーカー、モデル、年式、ボディタイプ、製造国を含む2657のカテゴリに分類して車両を分類する。
  • 1つの地域ごとに88の車両関連特徴を抽出し、平均車両価格、ハイブリッド車および電気自動車の割合、11のボディタイプおよび58のメーカーにわたる分布を含む。
  • 地域の代表的特徴(名前が'A'および'B'で始まる都市)のサブセットを用いて、リッジ回帰およびロジスティック回帰モデルを訓練し、車両特徴から人口統計変数を予測する。
  • 予測の堅牢性を確保し極端な推定値を回避するために、特徴量の正規化と予測値のクリッピングを実施。
  • 政治的傾向は条件付き確率P(Democrat|r>1)およびP(Republican|r<1)を用いて推定され、ここでrはピックアップトラックとセダンの比率である。

実験結果

リサーチクエスチョン

  • RQ1ストリートレベルの画像における車両属性を用いて、郵便番号レベルで人口統計および社会経済的変数を正確に推定できるか?
  • RQ2少数の都市で訓練された深層学習モデルが、全米の人口統計をどれほどうまく一般化して予測できるか?
  • RQ3セダンとピックアップトラックの比率といった車両特性が、政治的投票行動をどれほどよく予測できるか?
  • RQ4本手法の予測精度は、人的リソースを要する伝統的調査(ACS)と比較してどの程度優れているか?
  • RQ5本自動化された画像ベース手法による人口統計推定の空間分解能とタイムリーさはどの程度か?

主な発見

  • 深層学習を用いたストリートレベル画像からの車両メーカー・モデル・ボディタイプ分類で87.71%の精度を達成。
  • 15分間の走行でセダンの割合がピックアップトラックを上回る地域では、民主党に投票する可能性が88%に上昇する一方、ピックアップトラックが多い地域では共和党に投票する可能性が82%に上昇する。
  • 中間所得世帯の推定値とACSデータとの間で0.85の相関を示し、郵便番号レベルでの強い予測能力を裏付けた。
  • 人種的・教育的構成の推定値はACSの真値と高い一貫性を示し、合計が100%になるようにロジスティック回帰モデルが制約を課すことで精度が向上した。
  • 5000万枚の画像を処理し、2200万台の車両を2週間で分類したが、これは1枚あたり10秒の作業を要する人間の作業量を15年以上分に相当する。
  • 本手法により、細かい空間分解能とほぼリアルタイムの人口統計監視が可能となり、コストと時間の大幅な削減が見込める、スケーラブルな従来の調査手法の代替手段を提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。