Skip to main content
QUICK REVIEW

[论文解读] Weibo-COV: A Large-Scale COVID-19 Tweets Dataset from Webio

Yunfeng Hu, Hongbo Huang|arXiv (Cornell University)|May 18, 2020
Misinformation and Its Impacts参考文献 5被引用 5
一句话总结

Weibo-COV 是一个大规模、细粒度的数据集,包含在2019年12月1日至2020年4月30日期间收集的超过4000万条新浪微博帖子,覆盖了新冠疫情初期阶段。该数据集包含帖子级内容、用户互动、地理元数据以及转发网络,支持通过社交媒体分析实现疫情监测、早期预警系统和疫情暴发检测的研究。

ABSTRACT

With the rapid development of COVID-19 around the world, people are requested to maintain distance and stay at home. In this scenario, extensive social interactions transfer to cyberspace, especially on social media platforms like Twitter and Sina Weibo. People generate posts to share information, express opinions and seek help during the pandemic outbreak, and these kinds of data on social media are valuable for studies to prevent COVID-19 transmissions, such as early warning and outbreaks detection. Therefore, in this paper, we release a novel and fine-grained large-scale COVID-19 social media dataset collected from Sina Weibo, named Weibo-COV, contains more than 40 million posts ranging from December 1, 2019 to April 30, 2020. Moreover, this dataset includes comprehensive information nuggets like post-level information, interactive information, location information, and repost network. We hope this dataset can promote studies of COVID-19 from multiple perspectives and enable better and rapid researches to suppress the spread of this pandemic.

研究动机与目标

  • 为解决在新冠疫情初期阶段,缺乏大规模、全面的社会媒体数据集以研究公众情绪与信息传播的问题。
  • 从中国主要社交媒体平台新浪微博收集并整理一个高质量、细粒度的数据集,以支持对疫情动态的多重视角研究。
  • 为研究人员提供丰富的元数据,包括地理位置、用户互动和转发网络,以增强对健康危机期间信息传播与公众行为的研究。
  • 通过提供公开可访问的大规模真实世界数据,支持快速、数据驱动的研究,用于早期预警系统和疫情暴发检测。

提出的方法

  • 使用官方API和网络爬虫技术,从新浪微博进行网页抓取与数据收集,获取2019年12月1日至2020年4月30日期间的帖子数据。
  • 每篇帖子均包含全面的元数据,如用户ID、时间戳、内容文本、地理位置(城市与省份),以及互动指标(点赞数、评论数、转发数)。
  • 通过追踪内容的传播路径,构建转发网络,以支持对用户间信息传播模式的分析。
  • 对数据进行清洗与匿名化处理,在保护隐私的同时保留其结构与语义信息,以供研究使用。
  • 标准化数据格式,并以结构化、机器可读的格式发布数据集,以提升可访问性,并便于集成到各类分析流程中。

实验结果

研究问题

  • RQ1在疫情暴发初期,中国不同地区的公众情绪和关于新冠疫情的信息如何演变?
  • RQ2在疫情初期,新浪微博上的信息传播主要呈现哪些关键模式,特别是通过转发网络的传播特征?
  • RQ3像微博这样的社交媒体数据如何支持传染病的早期预警与疫情暴发检测系统?
  • RQ4地理位置和用户互动在社交媒体上传播疫情相关信息的过程中起到何种作用?

主要发现

  • Weibo-COV 数据集包含在2019年12月1日至2020年4月30日期间从新浪微博收集的超过4000万条唯一帖子,覆盖了疫情的关键初期阶段。
  • 该数据集包含丰富的元数据,如用户级互动、地理位置(城市与省份)以及完整的转发网络结构,支持网络层面的分析。
  • 通过包含帖子级内容、互动指标和时间元数据,该数据集支持对公众话语与情绪趋势的纵向研究。
  • 该数据集支持多种研究应用,包括早期预警系统开发、疫情暴发检测以及公共卫生紧急情况下的行为分析。
  • 该数据集的发布有望通过提供来自主要社交媒体平台在高影响力疫情背景下的大规模真实世界数据源,加速疫情应对相关研究。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。