Skip to main content
QUICK REVIEW

[论文解读] A first look at COVID-19 information and misinformation sharing on Twitter

Lisa Singh, Shweta Bansal|PubMed|Mar 31, 2020
Misinformation and Its Impacts参考文献 21被引用 268
一句话总结

本研究分析 COVID-19 相关 Twitter 对话在 2020-01-16 至 2020-03-15 的量、主题、地理信号、神话以及信息质量,强调可能的病例增长先行指标和错误信息的盛行。

ABSTRACT

Since December 2019, COVID-19 has been spreading rapidly across the world. Not surprisingly, conversation about COVID-19 is also increasing. This article is a first look at the amount of conversation taking place on social media, specifically Twitter, with respect to COVID-19, the themes of discussion, where the discussion is emerging from, myths shared about the virus, and how much of it is connected to other high and low quality information on the Internet through shared URL links. Our preliminary findings suggest that a meaningful spatio-temporal relationship exists between information flow and new cases of COVID-19, and while discussions about myths and links to poor quality information exist, their presence is less dominant than other crisis specific themes. This research is a first step toward understanding social media conversation about COVID-19.

研究动机与目标

  • 测量早期疫情爆发时期 Twitter 上关于 COVID-19 对话的规模与增长。
  • 识别主导主题与讨论来源,包括地理信号与语言。
  • 评估关于神话的存在性及其性质,以及随时间的普及程度。
  • 研究 Twitter 用户如何分享高质量信息源与低质量信息源的链接与新闻来源。
  • 探讨基于位置的 Twitter 信号是否与报告的 COVID-19 病例数相关或先于病例,并且对话是否能作为领先指标。

提出的方法

  • 使用一组 COVID-19 话题标签,通过 Twitter Streaming API 收集 2020-01-16 至 2020-03-15 的 COVID-19 相关推文。
  • 按语言对推文进行分类,行为性分析时序数据以评估增长模式和跨文化差异。
  • 以 Wikipedia 和 Statoids 构建位置本体,用以标注推文中的地点提及,并在可用时分析地理标记推文。
  • 通过对常见的非停用词进行开放编码,识别八个高层次内容主题;通过多数投票将推文分配到主题。
  • 通过手工关键词/短语匹配挖掘并分类关于 COVID-19 的神话,并对每日计数进行概率归属。
  • 评估 URL 共享以通过将域映射到高质量健康来源 (HQHS) 与低质量/错误信息来源 (LQMS) 来衡量信息质量,并分析其在推文和转发中的存在。
  • 使用 MediaBias/FactCheck 的可靠新闻域名清单评估新闻域名共享,并分析新闻文章中 HQHS 与 LQMS 链接的比例。

实验结果

研究问题

  • RQ1在早期疫情爆发期,Twitter 上关于 COVID-19 的讨论量与轨迹如何?
  • RQ2语言以哪些为主,主题/主题随时间如何演变?
  • RQ3Twitter 上的地点提及是否与官方 COVID-19 病例数相关或先于其出现,Twitter 能否作为领先指标?
  • RQ4出现了哪些关于 COVID-19 的神话,它们在研究期内的流行程度如何变化?
  • RQ5用户如何分享来自高质量与低质量来源的信息,新闻媒体在信息传播中扮演什么角色?

主要发现

  • 总 COVID-19 相关推文:2,792,513 条原创推文,456,878 条引用推文,以及 18,168,161 条转发。
  • 英语占 57.1% 的推文;西班牙语 11.6%、法语 6.5%、意大利语 4.8%;早期中国相关术语高频出现。
  • 对话中的地点提及和地理标记推文与官方病例数相关(在排除中国后相关系数约为 0.75)。
  • 地点对话与报告病例之间的领先时间因国家而异(USA ~2 天,意大利 ~4–5 天,中国-内地 ~4–5 天),表明社交媒体信号可能具有预测价值。
  • 识别出八个主题;健康/病毒与全球性各约占标注内容的 30%,信息提供者约 11%、情感约 9%;主题随美国疫情扩散而上升。
  • 约16,000 条推文(约 0.6%)讨论五个目标神话;病毒起源最初居领先,后期流感对比和家庭疗法上升。
  • 原创推文中出现 URL 的比例为 40.5%(引用推文 5.1%,转发 9.6%);HQHS 与 LQMS 链接较少,但 LQMS 链接的转发更多。
  • 新闻分享显示 13% 的原创推文包含新闻 URL;HQHS 链接出现在约 6.3% 的文章中,LQMS 约 0.3%,多数长尾域名偏向 HQHS 来源。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。