[論文レビュー] Twitter Dataset on the Russo-Ukrainian War
この論文は、ロシア-ウクライナ戦争に関する成長中のTwitterデータセット(7.74Mユーザーからの57.38Mツイート)を提示し、初期のボリュームと感情分析を行い、GitHub経由で公開可能にしており、トピック、ヘイトスピーチ、プロパガンダに関する今後の研究を可能にします。
On 24 February 2022, Russia invaded Ukraine, also known now as the Russo-Ukrainian War. We obtained our dataset through Twitter API from 23 February of 2022 until 23 June of 2023. The collected dataset has 127.275.386 tweets, shared in the form of anonymized text, where the tweet/user IDs and user mentions are anonymized and do not provide any personal information. The provided dataset contains user discussion in more than 70 languages, where the 20 most popular are : 'eng', 'fr', 'de', 'mix', 'it', 'es', 'ja', 'ru', 'pl', 'uk', 'tr', 'th', 'hi', 'qme', 'qht', 'nl', 'fi', 'ar', 'zh' and 'pt'. For the purpose of the information integrity tweets are separated and stored in different files ordered by creation date. The provided dataset is shared for further research purposes. Additionally, we provide the list of tweets IDs at the GitHub repository which can be retracted via Twitter API. Furthermore, we also manage to execute some initial analysis including: volume/activity, hashtags popularity, sentiment and military intelligence and publish the results in the web portal.
研究の動機と目的
- 2022年2月24日から始まる継続的なTwitterデータ収集を動機づけ、ロシア-ウクライナ戦争を巡る論調を研究する。
- 初期のボリューム分析と感情分析を提供し、トレンド、エンゲージメント、言語分布を明らかにする。
- 将来の分析(トピックモデリング、ヘイトスピーチ、プロパガンダ、ボット検出)用のデータ資源を提供し、プライバシー制約の下で。
提案手法
- 2022年2月24日以降のTwitter APIからの継続的データ収集により、大規模ツイートコーパスを構築。
- 日次ツイート数の初期ボリューム分析および停止/アカウントの分析。
- 支配的な言語と話題の特定のための言語とハッシュタグ頻度分析(例:#Ukraine)。
- Vaderを用いた感情分析により、ウクライナ、ロシア、および両大統領に対する日々の肯定的/否定的感情を定量化。
実験結果
リサーチクエスチョン
- RQ1ロシア-ウクライナ戦争中の日次のツイート量の傾向とユーザー停止の傾向は?
- RQ2discourseを支配する言語とハッシュタグは何で、時間とともにどう変化するか?
- RQ3ウクライナ、ロシア、およびそれらの大統領に対する肯定的・否定的感情のパターンは?
- RQ4データセットはトピック分析、ヘイトスピーチ検出、プロパガンダ認識などの下流タスクをどのようにサポートできるか?
主な発見
| ハッシュタグ | ツイート |
|---|---|
| #Ukraine | 28,578,739 |
| #Russia | 9,070,451 |
| #StandWithUkraine | 6,826,617 |
| #Putin | 4,851,536 |
| #UkraineRussiaWar | 4,007,785 |
| #StopRussia | 2,346,969 |
| #StopPutin | 2,332,136 |
| #StopWar | 1,877,518 |
| #Kyiv | 1,777,401 |
| #NATO | 1,686,092 |
- 執筆時点で、データセットには7,744,714人のユーザーからの57,384,192ツイートが含まれている。
- 攻撃の初期段階に日次活動がピークし、停止アカウントが増加。
- トップ言語の中で英語が大半を占める。
- 最も人気のあるハッシュタグは #Ukraine で 28,578,739件のツイート;他のトップハッシュタグには #Russia と #StandWithUkraine が含まれる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。