QUICK REVIEW

[论文解读] Towards Detecting Rumours in Social Media

Arkaitz Zubiaga, Maria Liakata|arXiv (Cornell University)|Apr 18, 2015

Advanced Text Analysis Techniques参考文献 12被引用 70

一句话总结

本文提出了一种新颖的方法，通过在突发事件期间手动收集并标注对话线程，利用基于时间线的方法识别未经证实的、具有新闻价值的声明，以检测社交媒体中的谣言。该方法应用于2014年弗格森骚乱事件，从1,185条抽样推文中共识别出24.6%为谣言，涵盖42个独立事件，证明其在捕捉多样且非显而易见的谣言方面优于基于关键词的检测方法。

ABSTRACT

The spread of false rumours during emergencies can jeopardise the well-being of citizens as they are monitoring the stream of news from social media to stay abreast of the latest updates. In this paper, we describe the methodology we have developed within the PHEME project for the collection and sampling of conversational threads, as well as the tool we have developed to facilitate the annotation of these threads so as to identify rumourous ones. We describe the annotation task conducted on threads collected during the 2014 Ferguson unrest and we present and analyse our findings. Our results show that we can collect effectively social media rumours and identify multiple rumours associated with a range of stories that would have been hard to identify by relying on existing techniques that need manual input of rumour-specific keywords.

研究动机与目标

开发一种系统化、基于时间线的方法，用于在突发事件期间识别社交媒体中的谣言，避免依赖预定义关键词。
创建一个丰富且经过标注的数据集，包含谣言和非谣言的对话线程，以支持机器学习在自动化谣言检测中的应用。
通过比较谣言和非谣言线程的讨论量和演化过程，理解谣言传播的特征。
通过分析谣言在对话线程中的演化过程，评估Twitter自我纠正机制的有效性。
通过实现实时早期检测虚假信息，支持应急响应和公共安全。

提出的方法

作者在2014年弗格森骚乱期间收集了源推文，重点关注引发对话的推文，并使用时间有序的时间线进行抽样。
随后，他们收集了与每条源推文相关的完整对话线程（包括回复和互动），以捕捉讨论动态。
开发了一种自定义标注工具，以支持人工标注线程，根据预定义的谣言标准将线程分类为谣言或非谣言。
谣言定义强调未经证实、具有实际相关性、新颖且语境模糊的信息，有助于人们管理风险。
标注人员通过阅读时间线识别符合谣言标准的事件，确保发现较少为人知或未广泛传播的谣言。
该方法成功收集了广泛讨论和冷门事件，使数据集丰富程度超越基于关键词的方法。

实验结果

研究问题

RQ1如何在紧急事件中，通过系统化、非关键词驱动的方法实现实时社交媒体流中的谣言识别？
RQ2在像2014年弗格森骚乱这样的重大社交媒体事件中，谣言的比例和多样性如何？
RQ3谣言线程在参与度（如回复数量）方面与非谣言线程相比有何差异，即讨论量有何不同？
RQ4对话线程在多大程度上表现出自我纠正的迹象，即用户是否支持或驳斥谣言？
RQ5是否可以使用一个包含多样谣言和非谣言的人工标注数据集，来训练机器学习模型以实现自动化谣言检测？

主要发现

在2014年弗格森骚乱事件中抽取的1,185条推文中，有24.6%被分类为谣言，共计291条谣言推文。
这些谣言推文分布在42个独立事件中，包括迈克尔·布朗被枪杀等重大事件，以及如五角大楼提供军用级武器等较少为人知的传闻。
谣言线程的平均回复数略高于非谣言线程，且中位数回复数更高，尽管非谣言线程也吸引了大量参与。
基于时间线的标注方法成功揭示了广泛范围的事件，包括那些低可见度的谣言，这些谣言若依赖关键词方法将被遗漏。
该数据集包含谣言和非谣言线程，为未来训练机器学习模型以实现自动化谣言检测提供了支持。
本研究证明，对对话线程进行人工、上下文感知的标注，能够有效捕捉实时事件中未经证实声明的全貌。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。