[論文レビュー] Tweets in Time of Conflict: A Public Dataset Tracking the Twitter Discourse on the War Between Ukraine and Russia
この論文はウクライナとロシア戦争に関するTwitterディスコースの公的データセットを提供し、2022年2月〜2022年10月に収集された数億 tweet の tweet ID を公開。初期分析とデータアクセスのためのGitHubリポジトリへのリンクを提供。
On February 24, 2022, Russia invaded Ukraine. In the days that followed, reports kept flooding in from layman to news anchors of a conflict quickly escalating into war. Russia faced immediate backlash and condemnation from the world at large. While the war continues to contribute to an ongoing humanitarian and refugee crisis in Ukraine, a second battlefield has emerged in the online space, both in the use of social media to garner support for both sides of the conflict and also in the context of information warfare. In this paper, we present a collection of over 63 million tweets, from February 22, 2022 through March 8, 2022 that we are publishing for the wider research community to use. This dataset can be found at https://github.com/echen102/ukraine-russia and will be maintained and regularly updated as the war continues to unfold. Our preliminary analysis already shows evidence of public engagement with Russian state sponsored media and other domains that are known to push unreliable information; the former saw a spike in activity on the day of the Russian invasion. Our hope is that this public dataset can help the research community to further understand the ever evolving role that social media plays in information dissemination, influence campaigns, grassroots mobilization, and much more, during a time of conflict.
研究の動機と目的
- 2022年2月から2023年初頭までのウクライナ–ロシア紛争を追跡する大規模な公的Twitterデータセットを文書化する。
- データアクセス手順を提供し、全文ではなくtweet IDを用いることでTwitter規約の遵守を確保する。
- 言語分布・ハッシュタグ・ドメイン・ユーザーの地理的位置パターンに関する予備統計と所見を提供し、誤情報・情報戦研究を可能にする。
- 紛争期間中の時間的動態と実世界の出来事との相関を強調する。
提案手法
- TwitterストリーミングAPI v1.1を用いたリアルタイムデータ収集で紛争関連キーワードとトレンドを追跡。
- Academic Trackアクセス向けに月間上限を設けたTwitter検索APIを用いた補足的な過去ツイートの収集。
- ツイートIDのみを公開してTwitter規約に準拠させ、HydratorやTwarcを用いたデータの水合作成を案内。
- 多言語のキーワードを含む追跡(表1)と進化するイベントを反映する定期的な更新。
- 言語分布の基礎統計(表2)、ハッシュタグの使用状況(表3)、共有ドメイン(図3および関連議論)を含む。
実験結果
リサーチクエスチョン
- RQ1コレクション期間中のウクライナ–ロシア紛争におけるツイートの言語分布はどうなるか?
- RQ2どの地域・ユーザー出身がTwitterディスコースを支配し、リツイート/引用のパターンは地理とどう関連するか?
- RQ3データセットで最も共有されるドメインはどれで、情報戦・誤情報指標とどう関連するか?
- RQ4ハッシュタグは主要な出来事と世論をどう反映し、どのような時間的動態が現れるか?
- RQ5データセットは現実世界のマイルストーンやニュースイベントとどのように動作するか?
主な発見
- 公開v1.2は2022年2月22日〜2022年10月1日を網羅し、言語を跨ぐ4億5,448,8445件のツイートを含む。
- 全体のボリュームは日次4百万件超の時期で始まり、その後Twitterのレート制限とAPI変更により時間とともに減少。
- 英語が言語分布のトップで、v1.2の70.65%にあたる321,088,619ツイート、ウクライナ語が8,016,384件、ロシア語が9,968,421件で、非英語キーワードの追加後に増加。
- 主要言語とスパイクは主要イベントと相関し、例としてウクライナ独立記念日にはウクライアンスのツイートが増加。
- ほとんどのツイートは米国および英国から発信され、言語駆動の概日パターンは米国および地域の時間帯に対応。
- Top hashtagsには #ukraine, #russia, #putin, #standwithukraine, #ukrainewar, #mariupol が含まれ、プーチン関連の使用が速報性と連動して変動。
- 頻繁に共有されるドメインには RT.com(ロシア系メディア)、Rumble、ZeroHedge が含まれ、MBFC により疑問視/陰謀的傾向付け、戦争初期にスパイク。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。