QUICK REVIEW

[论文解读] Deep Learning the City : Quantifying Urban Perception At A Global Scale

Abhimanyu Dubey, Nikhil Naik|arXiv (Cornell University)|Aug 5, 2016

Human Mobility and Location-Based Analysis参考文献 41被引用 51

一句话总结

本文介绍了 Place Pulse 2.0 数据集——涵盖全球 56 座城市共 110,988 幅街景图像的 117 万组成对比较——并提出一种类孪生卷积神经网络架构（RSS-CNN），可预测人类对城市特征（如安全性、美观性与活力）的感知。该模型在多样化的全球城市间具有良好的泛化能力，实现了大规模、自动化的全球城市感知分析。

ABSTRACT

Computer vision methods that quantify the perception of urban environment are increasingly being used to study the relationship between a city's physical appearance and the behavior and health of its residents. Yet, the throughput of current methods is too limited to quantify the perception of cities across the world. To tackle this challenge, we introduce a new crowdsourced dataset containing 110,988 images from 56 cities, and 1,170,000 pairwise comparisons provided by 81,630 online volunteers along six perceptual attributes: safe, lively, boring, wealthy, depressing, and beautiful. Using this data, we train a Siamese-like convolutional neural architecture, which learns from a joint classification and ranking loss, to predict human judgments of pairwise image comparisons. Our results show that crowdsourcing combined with neural networks can produce urban perception data at the global scale.

研究动机与目标

解决缺乏在多样化全球城市中大规模、量化城市感知数据的问题。
克服以往方法依赖密集人工标注、难以超越区域范围的局限性。
开发一种能够跨具有不同建筑与城市规划风格的城市泛化的深度学习模型。
仅通过成对比较与深度神经网络，实现自动化、大规模的城市感知审计。
为研究城市外观如何影响行为、健康与不平等提供基础，实现全球尺度分析。

提出的方法

通过 81,630 名志愿者在六大感知属性（安全、活力、无聊、富裕、压抑、美观）上完成 117 万组成对比较，覆盖全球 56 座城市。
构建一种类孪生卷积神经网络（RSS-CNN），以两张街景图像为输入，预测在特定属性下哪一张更受青睐。
采用联合损失函数进行模型训练，结合分类（胜/负）与排序（基于 TrueSkill）目标。
利用训练好的 RSS-CNN 为未在训练集中出现的新城市生成合成成对比较（每张图像 30 组）。
将 TrueSkill 算法应用于合成比较，推导出稳定、可排序的城市感知评分。
利用迁移学习与预训练 VGGNet 的特征提取，提升模型在多样化城市环境中的泛化能力。

实验结果

研究问题

RQ1在仅使用全球稀疏成对城市感知判断数据集进行训练的深度学习模型，能否在具有不同建筑与文化特征的城市之间实现有效泛化？
RQ2由神经网络生成的合成成对比较，在预测未见城市中人类对城市特征的感知方面表现如何？
RQ3在不同城市环境中，感知属性（如安全性、美观性与活力）之间的相关性或正交性程度如何？
RQ4在有限城市集合上训练的深度学习模型，能否准确预测地理与文化上截然不同的城市中的城市感知？
RQ5在全局尺度上，利用深度学习自动化城市感知审计的可扩展性与可靠性如何？

主要发现

RSS-CNN 模型在预测美观性感知方面与人工标注结果高度相关（R² = 0.83），显示出强大的预测能力。
该模型能有效泛化至训练集中未包含的城市，如温哥华、布宜诺斯艾利斯与首尔，生成的感知评分与视觉直觉一致。
感知属性之间表现出中等到高度的相关性（例如，安全与活力的 R² = 0.80），表明这些属性间存在共享的视觉线索。
该模型成功为每张图像生成 30 组合成成对比较，从而实现对城市外观的稳定 TrueSkill 评分排序。
失败案例揭示了模型偏差，例如在林木覆盖的高速公路场景中过度高估安全性，或将阴天图像标记为高度无聊。
数据集中包含 13.2% 的感知相等比较，表明存在相当比例的模糊判断，而当前模型忽略了此类情况。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。