[論文レビュー] Twitter Dataset for 2022 Russo-Ukrainian Crisis
この論文は、2022年のロシア・ウクライナ危機に関するリアルタイムのTwitterデータセットを公開し、ディスコース、誤情報、情報工作の分析を可能にするツイートIDと利用統計を提供します。
Online Social Networks (OSNs) play a significant role in information sharing during a crisis. The data collected during such a crisis can reflect the large scale public opinions and sentiment. In addition, OSN data can also be used to study different campaigns that are employed by various entities to engineer public opinions. Such information sharing campaigns can range from spreading factual information to propaganda and misinformation. We provide a Twitter dataset of the 2022 Russo-Ukrainian conflict. In the first release, we share over 1.6 million tweets shared during the 1st week of the crisis.
研究の動機と目的
- ロシア‐ウクライナ危機の政治的談話、意見分析、及び(偽情報/情報操作の伝播)研究を促進する。
- リアルタイムで公開アクセス可能なツイートデータセットを提供し、タイムリーな危機分析研究を可能にする。
- 研究者がTwitterデータを通じて情報キャンペーンとプロパガンダを追跡できるようにする。
- Twitterのガイドラインに従い、ツイートIDを用いて日次でデータを更新・共有するプロセスを提供する。
提案手法
- キーワードベースのクローリングを用いてTwitter Streaming APIでリアルタイムにツイートを収集する。
- 危機が進行するにつれて、進化するキーワードリストを維持しデータ収集を更新する。
- ツイートの全文ではなく、日付別にグループ化したツイートIDを公に共有し、Twitterのガイドラインを遵守する。
- IDからツイートを再構築するためのオープンソースツール(Twarc、Tweepy、Hydrator)を推奨する。
実験結果
リサーチクエスチョン
- RQ1最初の1週間における危機に関連するTwitterの活動量と時系列パターンはどうか?
- RQ2ロシア、ウクライナ、主要人物に関する議論を支配するキーワード、ハッシュタグ、言及はどれか?
- RQ3収集データセット内でリツイートや言及におけるユーザーのエンゲージメントはどのように現れるか?
- RQ4提供されたツイートIDをプラットフォームのガイドラインの下で研究者が再利用・再現するにはどうするか?
主な発見
- 指定されたキーワードを用いて、2022-03-06までに1.6百万件を超えるツイートを収集した。
- 収集期間中、日平均約200K件のツイートがあった。
- データの現在のスナップショットには90万超のユーザーがいる。
- リツイートは1.2百万件を超え、少なくとも1回リツイートされた413,254件のユニークツイートがあり、こうしたツイートは平均して3回リツイートされている(標準偏差12.04)。
- トップハッシュタグには Ukraine, Russia, UkraineRussiaWar, Kyiv, などの関連言及として ZelenskyyUa や POTUS などが含まれる。トップの言及には Ukraine, Russia, NATO, UN などが含まれる。
- データセットは日付ごとに配布されたツイートIDを提供(ファイルあたり最大50,000件のID)し、Twarc、Tweepy、Hydrator などのツールでダウンロードと再構築を行える。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。