[论文解读] Twitter Dataset on the Russo-Ukrainian War
本论文提出了一个关于俄乌战争的日益增长的 Twitter 数据集(来自 7.74M 用户的 57.38M 条推文),包含初步的体量与情感分析,并通过 GitHub 公共开放,便于进一步研究话题、仇恨言论和宣传。
On 24 February 2022, Russia invaded Ukraine, also known now as the Russo-Ukrainian War. We obtained our dataset through Twitter API from 23 February of 2022 until 23 June of 2023. The collected dataset has 127.275.386 tweets, shared in the form of anonymized text, where the tweet/user IDs and user mentions are anonymized and do not provide any personal information. The provided dataset contains user discussion in more than 70 languages, where the 20 most popular are : 'eng', 'fr', 'de', 'mix', 'it', 'es', 'ja', 'ru', 'pl', 'uk', 'tr', 'th', 'hi', 'qme', 'qht', 'nl', 'fi', 'ar', 'zh' and 'pt'. For the purpose of the information integrity tweets are separated and stored in different files ordered by creation date. The provided dataset is shared for further research purposes. Additionally, we provide the list of tweets IDs at the GitHub repository which can be retracted via Twitter API. Furthermore, we also manage to execute some initial analysis including: volume/activity, hashtags popularity, sentiment and military intelligence and publish the results in the web portal.
研究动机与目标
- 激励并记录自 2022 年 2 月 24 日起持续进行的 Twitter 数据收集,以研究俄乌战争话语。
- 提供初步的体量与情感分析,以揭示趋势、参与度和语言分布。
- 在隐私约束下,为未来分析(主题建模、仇恨言论、宣传、机器人检测)提供数据资源。
提出的方法
- 自 2022 年 2 月 24 日起,持续从 Twitter API 收集数据以构建大规模推文语料库。
- 对每日推文数量及已暂停/停用账号进行初步体量分析。
- 对语言和话题标签频率进行分析,以识别主导语言和话题(如 #Ukraine)。
- 使用 Vader 进行情感分析,以量化每日对乌克兰、俄罗斯及其总统的积极/消极情绪。
实验结果
研究问题
- RQ1在俄乌战争期间,推文量和用户暂停的日趋势是什么?
- RQ2话语主导的语言和话题标签是什么,随时间如何演变?
- RQ3对乌克兰、俄罗斯及其总统的积极与消极情感模式是什么?
- RQ4该数据集如何支持下游任务,如主题分析、仇恨言论检测和宣传识别?
主要发现
- 截至撰写本文,数据集包含 57,384,192 条推文,来自 7,744,714 名用户。
- 在袭击初期日活跃度激增,并出现更多被暂停的账户。
- 在主要语言中,推文大多数为英语。
- 最受欢迎的标签是 #Ukraine,共有 28,578,739 条推文;其他热门标签包括 #Russia 和 #StandWithUkraine。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。