QUICK REVIEW

[论文解读] User-level sentiment analysis incorporating social networks

Chenhao Tan, Lillian Lee|arXiv (Cornell University)|Sep 27, 2011

Sentiment Analysis and Opinion Mining参考文献 23被引用 35

一句话总结

本文提出了一种半监督的用户级情感分析模型，利用社交网络关系——特别是 Twitter 的关注者/被关注者关系和 @提及网络——来提高情感分类的准确性。通过使用图模型对连接用户之间的情感依赖关系进行建模，该方法在即使网络稀疏的情况下，只要边的质量较高，也能在统计上显著优于仅依赖文本的基线模型。

ABSTRACT

We show that information about social relationships can be used to improve user-level sentiment analysis. The main motivation behind our approach is that users that are somehow "connected" may be more likely to hold similar opinions; therefore, relationship information can complement what we can extract about a user's viewpoints from their utterances. Employing Twitter as a source for our experimental data, and working within a semi-supervised framework, we propose models that are induced either from the Twitter follower/followee network or from the network in Twitter formed by users referring to each other using "@" mentions. Our transductive learning results reveal that incorporating social-network information can indeed lead to statistically significant sentiment-classification improvements over the performance of an approach based on Support Vector Machines having access only to textual features.

研究动机与目标

通过将社交网络结构融入情感分析，提升用户级情感分类的性能。
探究社交网络中用户关系是否与共享情感相关，以支持同质性假设。
评估不同类型的网络（关注者/被关注者网络与 @提及网络）对情感分类性能的影响。
确定相互关注关系（仅同质性）与有向关系（包含关注行为）哪种在情感预测中表现更优。
评估在半监督设置下，未标记数据量和边质量对模型性能的影响。

提出的方法

作者采用一种归纳学习框架，使用隐式图模型（HGM）来建模用户情感与其社交连接之间的依赖关系。
该模型整合了两种社交网络：有向的关注者/被关注者图，以及用户之间通过 @提及建立的网络。
参数通过基于学习的方法（HGM-Learning）进行估计，基线方法采用多数投票策略（HGM-NoLearning）。
该方法将情感分类视为用户级任务，通过聚合每位用户的所有推文情感，同时利用网络结构信息。
该方法采用半监督设置，仅对一小部分用户进行标注，其余未标记用户用于通过网络传播情感信息。
模型通过在不同主题（如 'Lakers' 和 'Fox News'）上进行交叉验证，评估在最大连通分量上用户的准确率。

实验结果

研究问题

RQ1在仅依赖文本特征的基础上，引入社交网络结构是否能提升用户级情感分类性能？
RQ2关注者/被关注者网络与 @提及网络中，哪种类型的社交网络能带来更好的情感分类性能？
RQ3相互关注（仅同质性）是否优于有向关注（包含关注行为）以用于情感预测？
RQ4未标记用户数量如何影响模型性能？基于学习的参数估计是否能缓解性能下降？
RQ5在稀疏网络中，高质量边是否仍能带来显著的性能提升？

主要发现

引入社交网络信息后，用户级情感分类性能在统计上显著优于仅使用文本的 SVM 基线模型。
HGM-Learning 模型优于 HGM-NoLearning 基线，表明基于学习的参数估计能有效利用未标记数据。
对于 'Lakers' 和 'Fox News' 等部分主题，尽管网络密度较低，性能提升依然显著，表明边的质量比密度更为关键。
同质性与关注行为结合的链接（如相互关注与有向连接并存）在某些主题上优于仅同质性链接，但效果因主题而异。
即使边数极少，只要连接质量高（如情感相关性强），也能带来显著的性能提升，表明模型对稀疏性具有鲁棒性。
随着未标记数据的增加，模型性能持续提升，尤其在使用基于学习的参数估计时，表明模型具备良好的可扩展性与稳定性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。