QUICK REVIEW

[論文レビュー] Extracting Patterns of Urban Activity from Geotagged Social Data

Emre Çelikten, Géraud Le Falher|arXiv (Cornell University)|Apr 15, 2016

Human Mobility and Location-Based Analysis被引用数 3

ひとこと要約

本論文は、40の世界的都市における地物付きFoursquareチェックインから都市活動パターンを抽出するための確率的スパースモデリング手法を提案する。施設の種別、時間、訪問者プロファイルといった特徴を用いて施設分布をモデル化することで、任意の仮定を設けずに、データに裏付けられた明確な都市地域を同定する。その結果、訪問者アイデンティティが施設種別よりも地域をより明確に区別していることが明らかになり、理論的根拠に基づいた優れた予測性能を示す、都市間での地域類似性検出が可能になる。

ABSTRACT

Data generated on location-based social networks provide rich information on the whereabouts of urban dwellers. Specifically, such data reveal who spends time where, when, and on what type of activity (e.g., shopping at a mall, or dining at a restaurant). That information can, in turn, be used to describe city regions in terms of activity that takes place therein. For example, the data might reveal that citizens visit one region mainly for shopping in the morning, while another for dining in the evening. Furthermore, once such a description is available, one can ask more elaborate questions: What are the features that distinguish one region from another -- is it simply the type of venues they host or is it the visitors they attract? What regions are similar across cities? In this paper, we attempt to answer these questions using publicly shared Foursquare data. In contrast with previous work, our method makes use of a probabilistic model with minimal assumptions about the data and thus relieves us from having to make arbitrary decisions in our analysis (e.g., regarding the granularity of discovered regions or the importance of different features). We perform an empirical comparison with previous work and discuss insights obtained through our findings.

研究の動機と目的

地物付きソーシャルメディア活動に基づき、恣意的でないデータ駆動型の都市地域を同定すること。
施設種別、時間、訪問者プロファイルのうち、どの特徴が都市地域を最も明確に区別するかを特定すること。
理論的根拠に基づいた確率的枠組みを用いて、異なる都市間での都市地域を一貫して比較すること。
従来のヒューリスティック手法に代わる、理論的に整合性のある枠組みを用いた地域類似性検出の性能向上を図ること。

提案手法

期待最大化を用いてトレーニングされるスパース確率的モデルにより、地理的地域と施設特徴を関連づけ、地域の粒度や特徴の重要性についての仮定を最小限に抑える。
施設種別、チェックイン時刻、ユーザIDといった特徴をモデルに組み込み、データによって強く裏付けられる場合にのみ、地域固有の分布を学習する。
訓練済みモデルから導出される条件付き確率分布を用いて特徴の重要度を定量化し、特徴寄与度の整合的比較を可能にする。
都市間の地域比較のための2つの確率的類似度測度を定義する：1つは特徴分布のカルバック・ライブラー発散に基づくもの、もう1つは地域記述子の相互情報量に基づくもの。
定義された類似度測度を用いて、グリーディサーチアルゴリズムにより、都市間で最も類似した地域ペアを同定する。
予測性能と地域の明確さを測る指標を用いて、従来手法と比較して実証的に検証する。

実験結果

リサーチクエスチョン

RQ1施設種別、時間帯、訪問者プロファイルのうち、どの特徴が都市地域を最も効果的に区別するか？
RQ2地域のサイズや数に関する恣意的仮定を避ける方法で、どのように都市地域を同定できるか？
RQ3理論的根拠に基づいた確率的枠組みを用いて、異なる都市間の地域をどのように比較できるか？
RQ4提案手法は、従来のヒューリスティック手法と比較して、性能と解釈可能性の両面で優れているか？

主な発見

訪問者アイデンティティが、研究対象の全都市において施設種別を上回る、都市地域を区別する最も顕著な特徴であることが判明した。
本モデルは、チェックインデータの予測性能が向上したことで、従来手法よりも明確で鋭い特徴を示す地域を同定している。
確率的類似度測度により、効果的かつ解釈可能な方法で都市間で一致する地域を特定でき、例えばバルセロナとサンフランシスコの夕方の飲食地域に類似した地域が同定された。
明確さとデータとの整合性という観点から測定した場合、本手法は予測精度と地域記述の明確さの両面で、従来手法を上回っている。
都市活動パターンは施設タイプにのみ依存するのではなく、その施設を訪れる人々の影響を強く受けることが明らかになった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。