Skip to main content
QUICK REVIEW

[论文解读] Tweets in Time of Conflict: A Public Dataset Tracking the Twitter Discourse on the War Between Ukraine and Russia

Emily Chen, Emilio Ferrara|arXiv (Cornell University)|Mar 14, 2022
European and Russian Geopolitical Military Strategies被引用 22
一句话总结

本文提出了一个关于乌克兰—俄罗斯战争的公共 Twitter 话语数据集,公布了在 2022 年 2 月至 2022 年 10 月收集的数亿条推文的 tweet IDs,并给出初步分析以及一个用于数据访问的 GitHub 仓库链接。

ABSTRACT

On February 24, 2022, Russia invaded Ukraine. In the days that followed, reports kept flooding in from layman to news anchors of a conflict quickly escalating into war. Russia faced immediate backlash and condemnation from the world at large. While the war continues to contribute to an ongoing humanitarian and refugee crisis in Ukraine, a second battlefield has emerged in the online space, both in the use of social media to garner support for both sides of the conflict and also in the context of information warfare. In this paper, we present a collection of over 63 million tweets, from February 22, 2022 through March 8, 2022 that we are publishing for the wider research community to use. This dataset can be found at https://github.com/echen102/ukraine-russia and will be maintained and regularly updated as the war continues to unfold. Our preliminary analysis already shows evidence of public engagement with Russian state sponsored media and other domains that are known to push unreliable information; the former saw a spike in activity on the day of the Russian invasion. Our hope is that this public dataset can help the research community to further understand the ever evolving role that social media plays in information dissemination, influence campaigns, grassroots mobilization, and much more, during a time of conflict.

研究动机与目标

  • 记录一个大规模的公开 Twitter 数据集,跟踪从 2022 年 2 月到 2023 年初的乌克兰—俄罗斯冲突。
  • 提供数据访问说明并通过 tweet IDs 而非完整文本来确保符合 Twitter 条款。
  • 提供关于语言分布、话题标签、域名以及用户地理位置模式的初步统计与发现,以支持错误信息与信息战研究。
  • 突出冲突期间 Twitter 活动的时间动态及与现实世界事件的相关性。

提出的方法

  • 使用 Twitter streaming API v1.1 进行实时数据收集,以追踪与冲突相关的关键词和热议话题。
  • 通过 Twitter 搜索 API 收集的补充历史推文,学术通道访问设有每月上限。
  • 发布 tweet IDs(非完整文本)以遵守 Twitter 条款,并提供关于通过 Hydrator 或 Twarc 进行数据 hydration 的指南。
  • 包括多语言术语(表 1)在内的关键词跟踪,以及定期更新以反映不断演变的事件。
  • 对语言分布(表 2)、话题标签使用(表 3)以及分享域名(Figure 3 samt related discussion)的基本统计分析。

实验结果

研究问题

  • RQ1在收集期间,乌克兰—俄罗斯冲突的推文在语言上的分布是怎样的?
  • RQ2哪些地区和用户来源主导了 Twitter 话语,转发/引用模式如何与地理位置相关?
  • RQ3数据集中最常分享的域名有哪些,它们与信息战和错误信息指标有何关系?
  • RQ4话题标签如何反映战争期间的重大事件和公众情绪,以及出现了哪些时间动态?
  • RQ5数据集在现实世界里程碑和新闻事件出现时的表现如何?

主要发现

  • 发行版本 v1.2 覆盖 2022-02-22 至 2022-10-01 的推文,并跨语言共计 454,488,445 条。
  • 总体日均量开始约 4+ 百万条推文,但随着时间推移因 Twitter 速率限制和 API 变更而下降。
  • 英语在语言分布中占主导(v1.2 的 70.65%,321,088,619 条推文),乌克兰语(8,016,384)和俄语(9,968,421)在添加非英语关键词后上升。
  • Top languages and spikes correlate with major events (e.g., Ukrainian independence day increases Ukrainian tweets).
  • 大多数推文来自美国和英国,语言驱动的昼夜节律模式对应美国及区域时区。
  • 最热的话题标签包括 #ukraine、#russia、#putin、#standwithukraine、#ukrainewar、#mariupol,显示与突发新闻相关的普京相关用法波动。
  • 经常分享的域名包括 RT.com (Russian state media)、Rumble、和 ZeroHedge,MBFC 将其标注为可疑/阴谋倾向,且在战争初期出现峰值。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。