Skip to main content
QUICK REVIEW

[论文解读] Extracting Patterns of Urban Activity from Geotagged Social Data

Emre Çelikten, Géraud Le Falher|arXiv (Cornell University)|Apr 15, 2016
Human Mobility and Location-Based Analysis被引用 3
一句话总结

本文提出一种基于概率稀疏建模的方法,从全球40座城市的地理标签化Foursquare签到数据中提取城市活动模式。通过使用类别、时间及访客特征对场所分布进行建模,该方法在无需任意假设的前提下,发现具有数据支持的显著城市区域——揭示出访客身份比场所类别更具区分性,并实现基于理论基础的跨城市区域相似性检测,预测性能更优。

ABSTRACT

Data generated on location-based social networks provide rich information on the whereabouts of urban dwellers. Specifically, such data reveal who spends time where, when, and on what type of activity (e.g., shopping at a mall, or dining at a restaurant). That information can, in turn, be used to describe city regions in terms of activity that takes place therein. For example, the data might reveal that citizens visit one region mainly for shopping in the morning, while another for dining in the evening. Furthermore, once such a description is available, one can ask more elaborate questions: What are the features that distinguish one region from another -- is it simply the type of venues they host or is it the visitors they attract? What regions are similar across cities? In this paper, we attempt to answer these questions using publicly shared Foursquare data. In contrast with previous work, our method makes use of a probabilistic model with minimal assumptions about the data and thus relieves us from having to make arbitrary decisions in our analysis (e.g., regarding the granularity of discovered regions or the importance of different features). We perform an empirical comparison with previous work and discuss insights obtained through our findings.

研究动机与目标

  • 基于地理标签化的社交媒体活动,揭示数据驱动且非任意的城市区域。
  • 确定哪些特征——场所类别、时间或访客资料——最能区分城市区域。
  • 实现基于理论基础的、概率性支撑的跨城市区域比较方法。
  • 在理论框架坚实的基础上,超越以往基于启发式的方法,改进区域相似性检测性能。

提出的方法

  • 通过期望最大化算法训练稀疏概率模型,将地理区域与场所特征关联,最小化对区域粒度或特征重要性的先验假设。
  • 模型编码包括场所类别、签到时间及用户身份在内的特征,仅在数据强烈支持时学习区域特定的分布。
  • 利用训练模型导出的条件概率分布量化特征重要性,实现对特征贡献的合理比较。
  • 定义两种概率相似性度量以比较不同城市间的区域:一种基于特征分布的Kullback-Leibler散度,另一种基于区域描述符的互信息。
  • 采用贪心搜索算法,利用定义的相似性度量识别城市间最相似的区域对。
  • 通过预测性能与区域独特性指标,对本方法与先前方法进行实证验证。

实验结果

研究问题

  • RQ1哪些特征——场所类别、一天中的时间,还是访客资料——最能有效区分城市区域?
  • RQ2如何以避免对区域大小或数量的任意假设方式发现城市区域?
  • RQ3如何建立一种合理、基于概率的跨城市区域比较方法?
  • RQ4与以往基于启发式的方法相比,所提出的模型在性能与可解释性方面表现如何?

主要发现

  • 访客身份是区分城市区域的最关键特征,在所有研究的城市中,其区分能力优于场所类别。
  • 与以往方法相比,该模型发现的区域具有更清晰、更独特的特征,这在签到数据上的预测性能提升中得到验证。
  • 概率相似性度量能够有效且可解释地识别跨城市的匹配区域,例如巴塞罗那与旧金山的相似晚间餐饮区。
  • 在预测准确性与区域描述的清晰度方面,该方法均优于先前方法,其表现通过独特性与与数据的一致性指标得到衡量。
  • 该模型揭示出,城市活动模式并非仅由场所类型决定,而是显著受频繁光顾这些场所的人群影响。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。