Skip to main content
QUICK REVIEW

[论文解读] CoAID: COVID-19 Healthcare Misinformation Dataset

Limeng Cui, Dongwon Lee|arXiv (Cornell University)|May 22, 2020
Misinformation and Its Impacts参考文献 21被引用 182
一句话总结

介绍用于COVID-19医疗健康信息错误的CoAID基准数据集,包括新闻文章、用户参与度以及跨多平台的真值标签。

ABSTRACT

As the COVID-19 virus quickly spreads around the world, unfortunately, misinformation related to COVID-19 also gets created and spreads like wild fire. Such misinformation has caused confusion among people, disruptions in society, and even deadly consequences in health problems. To be able to understand, detect, and mitigate such COVID-19 misinformation, therefore, has not only deep intellectual values but also huge societal impacts. To help researchers combat COVID-19 health misinformation, therefore, we present CoAID (Covid-19 heAlthcare mIsinformation Dataset), with diverse COVID-19 healthcare misinformation, including fake news on websites and social platforms, along with users' social engagement about such news. CoAID includes 4,251 news, 296,000 related user engagements, 926 social platform posts about COVID-19, and ground truth labels. The dataset is available at: https://github.com/cuilimeng/CoAID.

研究动机与目标

  • 强调研究COVID-19错误信息及其对社会的影响的必要性。
  • 提供一个覆盖新闻文章、社交帖子和用户参与度的全面多模态数据集。
  • 使基于真实世界、聚焦医疗保健的COVID-19内容的错误信息检测模型能够进行基准评估。
  • 展示数据集构建、分析以及基线检测性能,以指导未来的研究。

提出的方法

  • 从可信来源和事实核查者处构建数据集,以收集COVID-19医疗健康新闻中的虚假信息与真实信息。
  • 抓取并对齐多模态数据:新闻文章、简短断言、社交平台帖子和用户参与度。
  • 自动更新以获取最新信息和真值标签。
  • 提取每个项目的丰富特征,包括文章内容、元数据,以及如推文和回复等参与信号。
  • 对数据集中的多种基线和前沿错误信息检测模型进行评估。

实验结果

研究问题

  • RQ1在网站与社交平台之间,COVID-19错误信息与事实信息的区分特征是什么?
  • RQ2用户参与信号(推文、回复、帖子)如何提高COVID-19内容的错误信息检测准确性?
  • RQ3使用CoAID数据集进行COVID-19医疗健康错误信息检测时,各种基线和前沿模型的性能如何?

主要发现

方法PR AUC精度召回率F1
SVM0.33650.40360.13220.1986
LR0.28710.42870.06900.1143
RF0.39370.60560.05810.1045
CNN0.81260.96530.12380.1983
BiGRU0.22410.74760.05240.0930
CSI0.35760.68140.21090.2283
SAMEv0.79010.89220.29910.3400
HAN0.68240.69650.46590.5471
dEFEND0.72290.89650.48470.5814
  • CoAID结合了假新闻/真新闻、简短断言,以及跨五个社交平台的大量用户参与。
  • 利用文章内容和用户参与的前沿模型优于简单基线,但面临类别不平衡和召回率/ F1有限的问题。
  • 错误信息检测在不同模型之间的表现存在差异;更深度的多模态方法(如 SAMEv、dEFEND)比仅文本基线得到更高的PR-AUC分数。
  • 数据集版本随时间增长,便于分析错误信息趋势和模型在数据演变中的鲁棒性。
  • 公开发布和自动更新为持续的COVID-19错误信息检测研究提供了可扩展的基准。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。