QUICK REVIEW
[论文解读] The Role of Emotional Variables in the Classification and Prediction of Collective Social Dynamics
Jan Chołoniewski, Julian Sienkiewicz|arXiv (Cornell University)|Jan 27, 2016
Complex Network Analysis Techniques参考文献 31被引用 5
一句话总结
本研究利用2012年奥运会期间的英国Twitter数据,应用数据挖掘技术,探究情感变量如何影响集体社会动态的分类与预测。引入情感得分显著提升了峰值检测的分类准确率(96%),但未改善活动预测效果,表明情感内容在识别由事件引发的社会激增方面具有特殊价值。
ABSTRACT
We demonstrate the power of data mining techniques for the analysis of collective social dynamics within British Tweets during the Olympic Games 2012. The classification accuracy of online activities related to the successes of British athletes significantly improved when emotional components of tweets were taken into account, but employing emotional variables for activity prediction decreased the classifiers ’ quality. The approach could be easily adopted for any prediction or classification study with a set of problem-specific variables.
研究动机与目标
- 评估情感变量是否能提升数据挖掘模型在分类和预测集体社会动态方面的准确性。
- 探究情感在通过在线社交媒体活动检测现实世界事件(如奥运奖牌获得)中的作用。
- 评估在不同预测与分类任务中,添加情感维度对分类器性能的影响。
提出的方法
- 收集了2012年奥运会期间伦敦地区每15分钟聚合的Twitter数据,重点关注与体育相关的标签。
- 计算了包括推文活动(ACT)、情感(SENT)、独立用户比例(PERC)、回复率(PERC REP)和平均推文长度(MEAN PL)在内的特征。
- 使用SentiStrength分类器提取正向与负向情感得分,并计算净情感得分作为关键情感变量。
- 通过检测算法识别情感与活动峰值,对具有显著情感或行为激增的时间窗口进行标记。
- 在包含与不包含情感变量的特征集上,训练多种数据挖掘分类器(如SVM、决策树)。
- 在三个基准问题上评估性能:趋势预测、阈值穿越预测和峰值分类。
实验结果
研究问题
- RQ1情感变量能否提升数据挖掘模型在分类集体社会动态方面的准确性?
- RQ2整合情感数据是否能增强对与现实世界事件相关的在线活动激增的预测能力?
- RQ3在不同类型的分类与预测任务中,情感特征的引入如何影响分类器性能?
- RQ4情感变量在某些类型的社会动态(如事件驱动的峰值)中是否比在一般趋势预测中更有效?
主要发现
- 在峰值检测的分类中,情感变量的引入显著提升了准确率,最佳分类器达到96%的准确率。
- 在活动趋势预测中,情感变量未带来可测量的准确率提升,准确率维持在66%。
- 添加情感特征未降低性能,但亦未增强一般活动预测的预测能力。
- 分类器性能随特征数量变化;在某些情况下,增加维度反而降低准确率,表明特征空间大小与模型性能之间存在非单调关系。
- 本研究证实,情感内容是检测由事件引发的社会激增的关键因素,尤其在涉及集体情感反应的情境中。
- 结果支持将情感分析作为数据挖掘流程中社交媒体分析的宝贵特征,特别是在检测具有社会意义的事件时。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。