Skip to main content
QUICK REVIEW

[论文解读] MM-COVID: A Multilingual and Multimodal Data Repository for Combating COVID-19 Disinformation

Yichuan Li, Bohan Jiang|arXiv (Cornell University)|Nov 8, 2020
Misinformation and Its Impacts参考文献 32被引用 51
一句话总结

MM-COVID 提供一个关于 COVID-19 的多语言、多维度假新闻数据集,整合内容、社交互动和跨六种语言的时间数据,以支持跨语言与多模态的假新闻检测与缓解。

ABSTRACT

The COVID-19 epidemic is considered as the global health crisis of the whole society and the greatest challenge mankind faced since World War Two. Unfortunately, the fake news about COVID-19 is spreading as fast as the virus itself. The incorrect health measurements, anxiety, and hate speeches will have bad consequences on people's physical health, as well as their mental health in the whole world. To help better combat the COVID-19 fake news, we propose a new fake news detection dataset MM-COVID(Multilingual and Multidimensional COVID-19 Fake News Data Repository). This dataset provides the multilingual fake news and the relevant social context. We collect 3981 pieces of fake news content and 7192 trustworthy information from English, Spanish, Portuguese, Hindi, French and Italian, 6 different languages. We present a detailed and exploratory analysis of MM-COVID from different perspectives and demonstrate the utility of MM-COVID in several potential applications of COVID-19 fake news study on multilingual and social media.

研究动机与目标

  • 动机:提出需要一个多语言、维度化的 COVID-19 假新闻数据集,以解决检测中的多语言性和社交语境信号。
  • 构建 MM-COVID,包含六种语言的假/真内容以及丰富的社交/上下文特征。
  • 提供基线多语言假新闻检测方法,并分析数据特征以指导未来研究。

提出的方法

  • 从 Snopes 和 Poynter 收集英文、西班牙文、葡萄牙文、印地文、法文和意大利文的真实性标签。
  • 使用 Newspaper3k 爬取源内容并提取元数据(URL、语言、日期、文本、图像)。
  • 通过 Twitter 高级搜索与 twarc 收集社交互动(推文、回复、转推);收集用户资料和时间线。
  • 分析内容、语言、社交环境及时间特征,以刻画假新闻与真实新闻之间的差异。
  • 使用仅内容、仅社交语境,以及内容+社交语境联合模型(SVM、XGBoost、dEFEND 变体)在各语言上评估基线检测器。

实验结果

研究问题

  • RQ1RQ1 在跨语言有充足标注数据时,仅内容、仅社交语境以及联合模型的性能如何?
  • RQ2RQ2 在跨语言数据共享的低资源条件下,性能如何变化?
  • RQ3RQ3 当目标语言没有标注数据时,社交语境信号是否能够实现跨语言假新闻检测?

主要发现

  • MM-COVID 通过将多语言内容与社交语境结合,实现跨语言假新闻检测。
  • 在充足资源的设定下,内容+社交语境模型(dEFEND 变体)在各语言中均优于单纯内容的基线。
  • 在低资源条件下,使用目标语言数据加辅助源语言数据时,社交语境有帮助;即使没有任何目标语言数据,跨语言社交语境模型仍能提供有竞争力的性能。
  • 时间维度的社交互动模式揭示语言不变的信号,可促进跨语言的早期假新闻检测。
  • 在多种语言中,机器人式用户行为与假新闻的互动相关,表明用户画像特征在检测中的价值。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。