Skip to main content
QUICK REVIEW

[论文解读] Twitter Dataset for 2022 Russo-Ukrainian Crisis

Ehsan-Ul Haq, Gareth Tyson|arXiv (Cornell University)|Mar 6, 2022
Public Relations and Crisis Communication被引用 31
一句话总结

本文发布了针对2022年俄乌危机的实时 Twitter 数据集,提供推文ID和使用统计数据,以便分析话语、错误信息传播和信息战等。

ABSTRACT

Online Social Networks (OSNs) play a significant role in information sharing during a crisis. The data collected during such a crisis can reflect the large scale public opinions and sentiment. In addition, OSN data can also be used to study different campaigns that are employed by various entities to engineer public opinions. Such information sharing campaigns can range from spreading factual information to propaganda and misinformation. We provide a Twitter dataset of the 2022 Russo-Ukrainian conflict. In the first release, we share over 1.6 million tweets shared during the 1st week of the crisis.

研究动机与目标

  • 激励在俄乌危机期间研究政治话语、观点挖掘,以及(误)信息传播。
  • 提供一个实时、公开可获取的推特数据集,以便开展及时的危机分析研究。
  • 使研究人员能够通过 Twitter 数据跟踪信息战与宣传活动。
  • 在 Twitter 指南下,提供通过推文ID每日更新和分享数据的流程。

提出的方法

  • 使用带有关键词爬取的 Twitter Streaming API 实时收集推文。
  • 维护一个不断演化的关键词列表,并在危机进展时更新数据收集。
  • 公开分享推文ID(按日期分组),而非完整推文,遵守 Twitter 指南。
  • 推荐使用开源工具(Twarc、Tweepy、Hydrator)从ID重构推文。

实验结果

研究问题

  • RQ1在第一周,与危机相关的 Twitter 活跃量及时间模式是多少?
  • RQ2关于俄罗斯、乌克兰和关键人物的讨论中,哪些关键词、话题标签和提及占主导?
  • RQ3在收集的数据集中,用户参与在转发和提及中的表现如何?
  • RQ4研究人员在平台指南下如何重复使用和复现实分析,利用提供的推文ID。

主要发现

  • 截至2022年3月6日,使用指定关键词共收集了超过1.6百万条推文。
  • 在收集期间,日均推文量约为20万条。
  • 当前数据快照中用户数量超过90万。
  • 超过120万条推文为转发,且有413,254条唯一推文被至少一次转发,平均每条此类推文有3次转发(标准差12.04)。
  • 最热门的话题标签包括 Ukraine、Russia、UkraineRussiaWar、Kyiv,以及相关提及如 ZelenskyyUa 和 POTUS;最热门的提及包括 Ukraine、Russia、NATO、UN 等。
  • 数据集按日期分发推文ID(每个文件最多5万ID),可下载并使用 Twarc、Tweepy 或 Hydrator 等工具从ID重建推文。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。