Skip to main content
QUICK REVIEW

[论文解读] SemEval-2017 Task 8: RumourEval: Determining rumour veracity and support for rumours

Leon Derczynski, Kalina Bontcheva|White Rose Research Online (University of Leeds, The University of Sheffield, University of York)|Apr 20, 2017
Misinformation and Its Impacts参考文献 18被引用 25
一句话总结

本文介绍了 RumourEval,这是 SemEval-2017 的一项共享任务,引入了一个大规模数据集以及两个挑战:在社交媒体中检测谣言真伪性和分类用户对谣言的立场。该任务聚焦于立场检测(支持、否认、疑问、评论)和真伪分类,最先进的系统通过深度学习和特征工程取得了优异表现,尽管在真伪预测方面仍具挑战性,但已有显著进展。

ABSTRACT

Media is full of false claims. Even Oxford Dictionaries named "post-truth" as the word of 2016. This makes it more important than ever to build systems that can identify the veracity of a story, and the kind of discourse there is around it. RumourEval is a SemEval shared task that aims to identify and handle rumours and reactions to them, in text. We present an annotation scheme, a large dataset covering multiple topics - each having their own families of claims and replies - and use these to pose two concrete challenges as well as the results achieved by participants on these challenges.

研究动机与目标

  • 开发一项共享任务,利用自然语言处理技术检测和验证社交媒体中的谣言。
  • 创建一个大规模、多主题的谣言及其用户回复数据集,对立场(支持、否认、疑问、评论)和真伪进行标注。
  • 在两个子任务上评估系统:立场分类(SDQC)和源谣言的真伪分类。
  • 通过提供社区驱动的评估基准,推动虚假新闻检测研究的发展。
  • 通过结构化话语分析,支持新闻报道、灾难响应和虚假信息缓解等应用。

提出的方法

  • 该任务使用社交媒体中的树状结构对话线程,其中每个回复均被标注为相对于原始谣言的立场:支持(S)、否认(D)、疑问(Q)或评论(C)。
  • 参赛者需使用四分类 SDQC 框架对每个回复推文的立场进行分类。
  • 在真伪分类方面,系统需预测源谣言是否为真、假或未验证,采用开放设置(允许使用外部资源)或封闭设置(不允许使用外部资源)。
  • 数据集包含数千个文档,涵盖多个现实世界事件,由记者和 NLP 专家进行标注,以确保质量。
  • 系统采用多样化技术,包括 LSTMs、CNNs、SVMs 和预训练词嵌入(如 word2vec),特征工程聚焦于信念、知识和怀疑线索。
  • 通过重采样和置信度校准等技术解决类别不平衡问题,尤其在真伪分类任务中。

实验结果

研究问题

  • RQ1NLP 系统能否准确地将社交媒体对话中用户对谣言的立场分类为支持、否认、疑问或评论?
  • RQ2深度学习和传统机器学习模型在基于文本内容和话语结构预测谣言真伪方面的有效性如何?
  • RQ3在开放设置下,外部知识源在多大程度上能提升真伪分类性能?
  • RQ4诸如信念、怀疑和否认等语言线索在立场和真伪检测中起到何种作用?
  • RQ5对话结构(如嵌套回复)在多大程度上有助于提升立场和真伪分类的性能?

主要发现

  • 立场分类表现最佳的系统(Turing)采用 LSTMs 与预训练词嵌入,通过建模序列话语上下文实现了高性能。
  • 采用广泛特征工程的系统——尤其是信念、知识和怀疑线索——表现更优,如 UWaterloo 和 ECNU 所示。
  • 在真伪分类中,封闭设置基线(F1=0.571)被所有参赛者超越,NileTMRG 和 IKM 均达到 0.536 F1,表明尽管存在类别不平衡,系统仍表现出强大学习能力。
  • 开放设置下的真伪分类中,ECNU 达到 0.464 F1,而 DFKI-DKT 达到 0.393 F1,表明外部资源对部分系统性能有提升作用。
  • 尽管取得进展,但没有任何系统在真伪分类中超越多数类基线,凸显该任务的固有难度。
  • 该数据集和共享任务结果为未来谣言检测与虚假信息分析研究提供了稳健的基准。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。