[論文レビュー] Weibo-COV: A Large-Scale COVID-19 Tweets Dataset from Webio
Weibo-COV は、COVID-19 パンデミックの初期段階にあたる 2019 年 12 月 1 日から 2020 年 4 月 30 日までに収集された 4000 万件を超える Sina Weibo ポストからなる大規模で細分化されたデータセットである。ポストレベルのコンテンツ、ユーザー間の相互作用、地理的メタデータ、リツイートネットワークを含み、ソーシャルメディア分析を通じてパンデミック監視、早期警戒システム、アウトブレイク検出に関する研究を可能にする。
With the rapid development of COVID-19 around the world, people are requested to maintain distance and stay at home. In this scenario, extensive social interactions transfer to cyberspace, especially on social media platforms like Twitter and Sina Weibo. People generate posts to share information, express opinions and seek help during the pandemic outbreak, and these kinds of data on social media are valuable for studies to prevent COVID-19 transmissions, such as early warning and outbreaks detection. Therefore, in this paper, we release a novel and fine-grained large-scale COVID-19 social media dataset collected from Sina Weibo, named Weibo-COV, contains more than 40 million posts ranging from December 1, 2019 to April 30, 2020. Moreover, this dataset includes comprehensive information nuggets like post-level information, interactive information, location information, and repost network. We hope this dataset can promote studies of COVID-19 from multiple perspectives and enable better and rapid researches to suppress the spread of this pandemic.
研究の動機と目的
- COVID-19 パンデミックの初期段階における公衆の感情と情報拡散を研究するための、大規模かつ包括的なソーシャルメディアデータセットの不足に対処すること。
- 中国の主要なソーシャルメディアプラットフォームとしての Sina Weibo から、高品質で細分化されたデータセットを収集・整備し、パンデミックのダイナミクスに関する多角的かつ包括的な研究を支援すること。
- 研究者が位置情報、ユーザー間の相互作用、リツイートネットワークを含む豊富なメタデータを活用できるようにすることで、健康危機時の情報拡散と公衆行動に関する研究を強化すること。
- 公開可能な大規模なデータセットを提供することで、リアルタイムの公衆の議論に関するデータ駆動型研究を迅速に推進し、早期警戒システムやアウトブレイク検出のための基盤を提供すること。
提案手法
- 2019 年 12 月 1 日から 2020 年 4 月 30 日までに、公式 API およびウェブスクレイピング技術を用いて Sina Weibo からのウェブクローリングとデータ収集を実施。
- 各ポストに対して、ユーザーID、タイムスタンプ、コンテンツ本文、地理的位置(都市および省)、エンゲージメントメトリクス(いいね、コメント、リツイート数)など、包括的なメタデータを含める。
- 共有コンテンツの履歴を追跡することでリツイートネットワークを構築し、ユーザー間での情報拡散パターンの分析を可能にする。
- プライバシー保護を確保しつつ、構造的および意味的情報を保持するためのデータのキュレーションと匿名化処理を実施。
- データフォーマットの標準化と、幅広いアクセス性および分析パイプラインへの統合を可能にする構造的・機械可読形式でのデータセット公開。
実験結果
リサーチクエスチョン
- RQ1中国の各地域において、パンデミック初期段階にわたり、公衆の感情とCOVID-19に関する情報はどのように変化したか?
- RQ2特にリツイートネットワークを通じて、パンデミック初期段階における Sina Weibo 上での情報拡散の主要なパターンは何か?
- RQ3Weibo のようなソーシャルメディアデータは、感染症の早期警戒およびアウトブレイク検出システムの構築にどのように寄与できるか?
- RQ4地理的位置とユーザー間の相互作用は、ソーシャルメディア上でのパンデミック関連情報の拡散にどのような役割を果たすか?
主な発見
- Weibo-COV データセットには、2019 年 12 月 1 日から 2020 年 4 月 30 日までに収集された 4000 万件を超えるユニークなポストが含まれており、パンデミックの重要な初期段階をカバーしている。
- ユーザーの相互作用、地理的位置(都市および省)、完全なリツイートネットワーク構造を含む豊富なメタデータが含まれており、ネットワークレベルの分析が可能である。
- ポストレベルのコンテンツ、エンゲージメントメトリクス、時系列メタデータの組み合わせにより、公衆の議論と感情傾向の縦断的分析が可能である。
- このデータセットは、早期警戒システムの開発、アウトブレイク検出、公衆衛生緊急事態における行動分析など、多様な研究用途をサポートする。
- 本データセットの公開により、主要なソーシャルメディアプラットフォームから得られる大規模かつ現実世界のデータソースを活用した、パンデミック対応に関する研究の加速が期待される。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。