[论文解读] Learning Reporting Dynamics during Breaking News for Rumour Detection in Social Media
论文提出基于顺序CRF的方法,通过利用事件内报道动态,在 breaking-news 的 Twitter 流中检测谣言,而不依赖查询推文。它优于现有先进方法和非顺序基线,包括 Zhao 等人的基于查询的方法。
Breaking news leads to situations of fast-paced reporting in social media, producing all kinds of updates related to news stories, albeit with the caveat that some of those early updates tend to be rumours, i.e., information with an unverified status at the time of posting. Flagging information that is unverified can be helpful to avoid the spread of information that may turn out to be false. Detection of rumours can also feed a rumour tracking system that ultimately determines their veracity. In this paper we introduce a novel approach to rumour detection that learns from the sequential dynamics of reporting during breaking news in social media to detect rumours in new stories. Using Twitter datasets collected during five breaking news stories, we experiment with Conditional Random Fields as a sequential classifier that leverages context learnt during an event for rumour detection, which we compare with the state-of-the-art rumour detection system as well as other baselines. In contrast to existing work, our classifier does not need to observe tweets querying a piece of information to deem it a rumour, but instead we detect rumours from the tweet alone by exploiting context learnt during the event. Our classifier achieves competitive performance, beating the state-of-the-art classifier that relies on querying tweets with improved precision and recall, as well as outperforming our best baseline with nearly 40% improvement in terms of F1 score. The scale and diversity of our experiments reinforces the generalisability of our classifier.
研究动机与目标
- 为 breaking-news Twitter 时间线中的谣言与非谣言建立数据收集与标注方法。
- 提出一种利用前序报道上下文以实时检测推文中的谣言的顺序学习方法。
- 在多个 breaking-news 事件中比较 CRF 与非顺序基线以及 Zhao 等人基于 enquiry 的方法的表现。
提出的方法
- 收集五个 breaking-news 的 Twitter 数据集,并由记者驱动对推文标注为谣言或非谣言。
- 将推文建模为一个序列,使用 Linear-Chain Conditional Random Fields (CRF) 来捕捉事件动态作为每条推文的上下文。
- 将 CRF 与 Maximum Entropy(非序列)以及 Zhao 等人基于 enquiry 的基线进行比较。
- 使用两组特征:基于内容的特征(Word2Vec、POS、标点及计数)和社会特征(作者元数据)。
- 使用5折交叉验证,其中每折在四个事件上训练,在第五个事件上测试;报告微平均指标。
实验结果
研究问题
- RQ1在 breaking-news 时间线中,来自前序推文的上下文能否提升谣言检测在推文单独分类器上的准确性?
- RQ2在检测跨多个事件的谣言时,序列模型(CRF)是否胜过非序列分类器和最先进的 enquiry 基线?
- RQ3哪些特征集(内容、社会、或两者结合)能最大化谣言检测性能?
- RQ4该方法在不同 breaking-news 事件及报道阶段的鲁棒性如何?
主要发现
- 使用内容特征的 CRF 取得最佳性能,尤其在精确度方面,并在所有分类器中达到最高的 F1 分数。
- 将内容与社会特征结合的 CRF 超越基线,较第二好分类器(Naive Bayes)在 F1 上约提升 39.9%。
- 基于 enquiry 的基线(Zhao 等人)具有较高的精确度但召回率很低(精确度 0.41,召回率很低),相较于 CRF 呈现整体性能较差。
- 仅社会特征在内容特征面前表现不佳,结合两类特征时 CRF 的总体 F1 最高。
- CRF 在早期事件阶段及多样事件中保持优势,展示了序列上下文方法的泛化性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。