[论文解读] User-level sentiment analysis incorporating social networks
本文提出了一种半监督的用户级情感分析模型,利用社交网络关系——特别是 Twitter 的关注者/被关注者关系和 @提及网络——来提高情感分类的准确性。通过使用图模型对连接用户之间的情感依赖关系进行建模,该方法在即使网络稀疏的情况下,只要边的质量较高,也能在统计上显著优于仅依赖文本的基线模型。
We show that information about social relationships can be used to improve user-level sentiment analysis. The main motivation behind our approach is that users that are somehow "connected" may be more likely to hold similar opinions; therefore, relationship information can complement what we can extract about a user's viewpoints from their utterances. Employing Twitter as a source for our experimental data, and working within a semi-supervised framework, we propose models that are induced either from the Twitter follower/followee network or from the network in Twitter formed by users referring to each other using "@" mentions. Our transductive learning results reveal that incorporating social-network information can indeed lead to statistically significant sentiment-classification improvements over the performance of an approach based on Support Vector Machines having access only to textual features.
研究动机与目标
- 通过将社交网络结构融入情感分析,提升用户级情感分类的性能。
- 探究社交网络中用户关系是否与共享情感相关,以支持同质性假设。
- 评估不同类型的网络(关注者/被关注者网络与 @提及网络)对情感分类性能的影响。
- 确定相互关注关系(仅同质性)与有向关系(包含关注行为)哪种在情感预测中表现更优。
- 评估在半监督设置下,未标记数据量和边质量对模型性能的影响。
提出的方法
- 作者采用一种归纳学习框架,使用隐式图模型(HGM)来建模用户情感与其社交连接之间的依赖关系。
- 该模型整合了两种社交网络:有向的关注者/被关注者图,以及用户之间通过 @提及建立的网络。
- 参数通过基于学习的方法(HGM-Learning)进行估计,基线方法采用多数投票策略(HGM-NoLearning)。
- 该方法将情感分类视为用户级任务,通过聚合每位用户的所有推文情感,同时利用网络结构信息。
- 该方法采用半监督设置,仅对一小部分用户进行标注,其余未标记用户用于通过网络传播情感信息。
- 模型通过在不同主题(如 'Lakers' 和 'Fox News')上进行交叉验证,评估在最大连通分量上用户的准确率。
实验结果
研究问题
- RQ1在仅依赖文本特征的基础上,引入社交网络结构是否能提升用户级情感分类性能?
- RQ2关注者/被关注者网络与 @提及网络中,哪种类型的社交网络能带来更好的情感分类性能?
- RQ3相互关注(仅同质性)是否优于有向关注(包含关注行为)以用于情感预测?
- RQ4未标记用户数量如何影响模型性能?基于学习的参数估计是否能缓解性能下降?
- RQ5在稀疏网络中,高质量边是否仍能带来显著的性能提升?
主要发现
- 引入社交网络信息后,用户级情感分类性能在统计上显著优于仅使用文本的 SVM 基线模型。
- HGM-Learning 模型优于 HGM-NoLearning 基线,表明基于学习的参数估计能有效利用未标记数据。
- 对于 'Lakers' 和 'Fox News' 等部分主题,尽管网络密度较低,性能提升依然显著,表明边的质量比密度更为关键。
- 同质性与关注行为结合的链接(如相互关注与有向连接并存)在某些主题上优于仅同质性链接,但效果因主题而异。
- 即使边数极少,只要连接质量高(如情感相关性强),也能带来显著的性能提升,表明模型对稀疏性具有鲁棒性。
- 随着未标记数据的增加,模型性能持续提升,尤其在使用基于学习的参数估计时,表明模型具备良好的可扩展性与稳定性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。