[论文解读] DeepCity: A Feature Learning Framework for Mining Location Check-Ins
DeepCity 是一种基于深度学习的特征学习框架,利用任务特定的随机游走为基于位置的社交网络(LBSNs)中的用户和位置生成个性化嵌入。通过利用人口统计和类别属性引导随机游走,它提升了用户和位置的画像能力,在包含 4200 万次签到的 Instagram 数据集上实现了最先进性能,即使签到次数极少,性别预测的 AUC 分数也接近 0.9。
Online social networks being extended to geographical space has resulted in large amount of user check-in data. Understanding check-ins can help to build appealing applications, such as location recommendation. In this paper, we propose DeepCity, a feature learning framework based on deep learning, to profile users and locations, with respect to user demographic and location category prediction. Both of the predictions are essential for social network companies to increase user engagement. The key contribution of DeepCity is the proposal of task-specific random walk which uses the location and user properties to guide the feature learning to be specific to each prediction task. Experiments conducted on 42M check-ins in three cities collected from Instagram have shown that DeepCity achieves a superior performance and outperforms other baseline models significantly.
研究动机与目标
- 解决通用网络嵌入方法在用户和位置预测中无法捕捉任务特定特征的局限性。
- 通过直接从签到数据中学习表示,消除用户和位置画像任务中手动特征工程的需求。
- 通过统一且可扩展的框架,提升用户人口统计(如性别、年龄、种族)和位置类别的预测准确性。
- 构建一个大规模、多城市的签到数据集,包含人口统计和类别标签,以供未来研究基准测试。
- 验证任务特定的随机游走通过聚焦每个预测任务的相关邻域结构,能够增强表示学习。
提出的方法
- DeepCity 使用 word2vec 中的 Skip-gram 模型,从用户和位置的交互模式中学习低维向量表示(嵌入)。
- 它引入了任务特定的随机游走,动态地根据辅助属性(如性别、年龄或位置类别)在游走过程中定义节点的邻域。
- 随机游走过程通过用户或位置的属性进行引导,优先选择与目标预测任务相关的连接,从而增强任务特定的特征学习。
- 该框架通过优化 Skip-gram 目标函数来保留网络中的局部结构关系,确保在向量空间中相似的用户或位置被紧密嵌入。
- 该方法整合了外部数据源(如 Face++ 人脸识别)以大规模自动收集人口统计标签用于训练。
- 它支持在单一统一框架内同时进行用户画像(人口统计推断)和位置画像(类别预测)作为双重预测任务。
实验结果
研究问题
- RQ1与通用网络嵌入方法相比,任务特定的随机游走是否能提升用户人口统计预测(如性别、年龄、种族)的性能?
- RQ2DeepCity 仅使用签到模式和最少元数据时,在预测位置类别方面的有效性如何?
- RQ3每位用户或位置的签到次数在多大程度上影响模型的预测性能?
- RQ4DeepCity 是否能在大规模真实世界数据上,在用户和位置画像任务中均优于现有的最先进模型?
- RQ5在随机游走中引入任务特定引导,是否能产生比标准网络嵌入技术更具判别性和泛化能力的节点嵌入?
主要发现
- 即使用户仅有 10 次签到,DeepCity 在性别预测上的 AUC 也接近 0.9,表明其在数据极少时仍具有强大性能。
- 用户种族预测的性能在每人 25 次签到后趋于稳定,表明其对低数据可用性的鲁棒性。
- 年龄预测的 AUC 随签到次数几乎线性增长,表明用户活动越多,性能越持续提升。
- DeepCity 在用户人口统计和位置类别预测任务中,显著优于基线模型(包括 DeepWalk 和 node2vec)。
- 使用任务特定随机游走相比通用随机游走,能实现更优的表示学习,表现为更高的 AUC 和 F1 分数。
- 该框架在包含超过 4200 万次签到的大型数据集(来自 Instagram 的纽约、洛杉矶和伦敦)上表现出高度可扩展性和有效性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。