[论文解读] Learning multi-faceted representations of individuals from heterogeneous evidence using neural networks
本文提出了一种深度神经网络框架,通过整合用户生成的文本、社交网络结构和用户属性等异构社交信号,联合学习个体的多方面表征,将其映射为共享的密集向量嵌入。通过利用语言和关系线索,该模型在四项关键社交媒体推理任务(性别、职业、位置和好友关系预测)上显著提升了性能,表明综合证据可实现更准确、更鲁棒的用户建模。
Inferring latent attributes of people online is an important social computing task, but requires integrating the many heterogeneous sources of information available on the web. We propose learning individual representations of people using neural nets to integrate rich linguistic and network evidence gathered from social media. The algorithm is able to combine diverse cues, such as the text a person writes, their attributes (e.g. gender, employer, education, location) and social relations to other people. We show that by integrating both textual and network evidence, these representations offer improved performance at four important tasks in social media inference on Twitter: predicting (1) gender, (2) occupation, (3) location, and (4) friendships for users. Our approach scales to large datasets and the learned representations can be used as general features in and have the potential to benefit a large number of downstream tasks including link prediction, community detection, or probabilistic reasoning over social networks.
研究动机与目标
- 开发一种可扩展的深度学习框架,统一建模在线社交媒体中的多样化社交信号——文本、属性和网络结构。
- 解决将嘈杂、异构且常不完整的社交证据整合为统一用户表征的挑战。
- 通过联合优化的用户嵌入,实现对个体和群体行为的改进推理。
- 在保持对下游任务的可解释性和泛化能力的同时,将表征学习过程扩展至大规模社交数据集。
提出的方法
- 该模型通过联合训练用户生成的文本、社交网络连接和用户属性,利用受CBOW和段落向量启发的神经网络架构来学习用户嵌入。
- 通过预测给定其相邻词和用户嵌入的词语来建模文本上下文,其中用户嵌入被整合到上下文向量中。
- 通过随机梯度下降优化用户嵌入,以最大化观察到的词语的可能性,并使具有相似属性或朋友关系的用户在嵌入空间中对齐。
- 该框架通过在统一向量空间中联合建模用户、文本和属性,扩展了传统的词嵌入和节点嵌入方法,从而实现对社交信号的全局推理。
- 该模型利用同质性原则:具有好友关系、共享属性或撰写相似文本的用户在向量空间中被嵌入得更接近。
- 联合优化目标结合了语言建模、属性预测和链接预测信号,以训练单一、统一的表征。
实验结果
研究问题
- RQ1统一的深度学习框架能否有效整合异构社交信号(如文本、属性和网络结构)用于用户表征学习?
- RQ2结合多种证据来源(如文本和社交关系)在多大程度上能提升性别、职业和位置预测等个体属性推理任务的准确性?
- RQ3所学习的用户嵌入在多大程度上捕捉了同质性特征,即具有相似属性或行为的用户是否被表示为彼此接近的向量?
- RQ4所学习的表征能否在诸如好友关系预测和社交网络的概率推理等多样化下游任务中实现良好泛化?
- RQ5该模型在大规模社交媒体数据集上如何实现可扩展性,同时保持性能和鲁棒性?
主要发现
- 通过整合文本和网络证据,所提出的模型在预测用户性别、职业、位置和好友关系方面实现了显著提升。
- 同时引入文本和网络信号的性能优于单独使用任一模态,证明了多模态融合的价值。
- 所学习的用户嵌入自然地捕捉了同质性:具有相似属性或社交关系的用户被表示为相似的向量。
- 模型预测,加州的男性成为工程师的可能性是加州女性的6.8倍,体现了其推断群体行为模式的能力。
- IT行业用户喜欢iPhone的可能性是法律行业用户的2.5倍,展示了模型在社交属性上进行概率推理的能力。
- 该框架具有良好的泛化能力,可扩展以支持图像表征(如来自卷积神经网络的表示)和其他模态,从而增强其在多样化社交媒体平台上的适用性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。