Skip to main content
QUICK REVIEW

[论文解读] Using Deep Learning and Google Street View to Estimate the Demographic Makeup of the US

Timnit Gebru, Jonathan Krause|arXiv (Cornell University)|Feb 22, 2017
Video Surveillance and Tracking Methods参考文献 5被引用 30
一句话总结

本文提出一种深度学习方法,利用谷歌街景图像在高空间分辨率下估算美国的人口统计与社会经济数据。通过分析200座城市中5000万张街景图像中的车辆品牌、型号和年份,该方法在预测收入、种族、教育水平和投票模式方面表现出高准确性——例如,15分钟车程中若轿车多于皮卡,则该选区有88%的可能性倾向民主党的投票偏好。

ABSTRACT

The United States spends more than $1B each year on initiatives such as the American Community Survey (ACS), a labor-intensive door-to-door study that measures statistics relating to race, gender, education, occupation, unemployment, and other demographic factors. Although a comprehensive source of data, the lag between demographic changes and their appearance in the ACS can exceed half a decade. As digital imagery becomes ubiquitous and machine vision techniques improve, automated data analysis may provide a cheaper and faster alternative. Here, we present a method that determines socioeconomic trends from 50 million images of street scenes, gathered in 200 American cities by Google Street View cars. Using deep learning-based computer vision techniques, we determined the make, model, and year of all motor vehicles encountered in particular neighborhoods. Data from this census of motor vehicles, which enumerated 22M automobiles in total (8% of all automobiles in the US), was used to accurately estimate income, race, education, and voting patterns, with single-precinct resolution. (The average US precinct contains approximately 1000 people.) The resulting associations are surprisingly simple and powerful. For instance, if the number of sedans encountered during a 15-minute drive through a city is higher than the number of pickup trucks, the city is likely to vote for a Democrat during the next Presidential election (88% chance); otherwise, it is likely to vote Republican (82%). Our results suggest that automated systems for monitoring demographic trends may effectively complement labor-intensive approaches, with the potential to detect trends with fine spatial resolution, in close to real time.

研究动机与目标

  • 开发一种低成本、实时的替代方案,以应对传统人口普查调查(如美国社区调查,ACS)存在的长达五年的数据延迟问题。
  • 利用公开获取的街景图像与深度学习技术,推断社区层面的社会经济与政治趋势。
  • 证明车辆属性(如品牌、型号、年份及车型)可作为收入、种族、教育水平与投票行为等人口统计变量的强有效代理指标。
  • 仅使用少数城市的小规模标注调查数据,即可实现对全美所有邮政编码的人口统计估计,并实现良好泛化能力。
  • 通过严格的交叉验证,并与真实数据(ACS与选举数据)对比,验证该方法的预测能力。

提出的方法

  • 该方法使用可变形部件模型(DPM)检测5000万张来自美国200座城市的谷歌街景图像中的车辆。
  • 卷积神经网络(CNN)将检测到的车辆分类为2657个类别,依据包括品牌、型号、年份、车身类型及原产国。
  • 系统从每个社区提取88项与汽车相关的特征,包括平均车辆价格、混合动力与电动汽车占比,以及11种车身类型与58个汽车品牌在各类型中的分布情况。
  • 利用部分城市(名称以字母A和B开头的城市)的数据集,训练岭回归与逻辑回归模型,从车辆特征预测人口统计变量。
  • 采用五折交叉验证评估模型性能,结合特征标准化与预测值截断处理,以确保结果稳健性并避免极端估计。
  • 政治倾向通过条件概率估算:P(民主党|r>1) 与 P(共和党|r<1),其中 r 为皮卡与轿车的比值。

实验结果

研究问题

  • RQ1能否利用街景图像中的车辆属性,在邮政编码层级上准确估算人口统计与社会经济变量?
  • RQ2在小部分城市上训练的深度学习模型,其泛化能力如何,能否有效预测全美范围的人口统计?
  • RQ3车辆特征(如轿车与皮卡的比例)在多大程度上可预测政治投票模式?
  • RQ4与传统人工密集型调查(如ACS)相比,该方法的预测准确率如何?
  • RQ5该自动化图像驱动方法在人口统计估算方面具备多高的空间分辨率与时效性?

主要发现

  • 该方法在街景图像上使用深度学习对车辆品牌、型号与车身类型进行分类,准确率达到87.71%。
  • 若15分钟车程中轿车数量多于皮卡,则预测该选区有88%的概率倾向民主党的投票;若皮卡更多,则预测共和党倾向的概率为82%。
  • 模型预测的中位数家庭收入与ACS数据的相关系数达到0.85,表明在邮政编码层级上具备极强的预测能力。
  • 对种族与教育构成的估计与ACS真实数据高度一致,逻辑回归模型通过强制总和为100%的约束提升了准确性。
  • 系统在两周内处理了5000万张图像,分类了2200万辆车辆,相当于人类以每图10秒的速度工作超过15年的工作量。
  • 该方法实现了接近实时的人口统计监测,具备精细的空间分辨率,为传统调查方法提供了一种可扩展、显著节省成本与时间的替代方案。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。