[論文レビュー] Large Arabic Twitter Dataset on COVID-19
この論文は COVID-19 に関するアラビア語ツイッターのデータセットを初めて提示します。2020年1月1日から収集され、over 3.9 million アラビア語ツイートと付随メタデータを含み、データ収集方法と初期統計を提供します。
The 2019 coronavirus disease (COVID-19), emerged late December 2019 in China, is now rapidly spreading across the globe. At the time of writing this paper, the number of global confirmed cases has passed two millions and half with over 180,000 fatalities. Many countries have enforced strict social distancing policies to contain the spread of the virus. This have changed the daily life of tens of millions of people, and urged people to turn their discussions online, e.g., via online social media sites like Twitter. In this work, we describe the first Arabic tweets dataset on COVID-19 that we have been collecting since January 1st, 2020. The dataset would help researchers and policy makers in studying different societal issues related to the pandemic. Many other tasks related to behavioral change, information sharing, misinformation and rumors spreading can also be analyzed.
研究の動機と目的
- COVID-19 の期間におけるアラビア語話者の公衆ディスコースと行動変容の研究を動機づける。
- 情報拡散、感情、誤情報を分析するための大規模なアラビア語ツイッター データセットを提供する。
- データ収集方法、前処理計画、研究者や政策立案者の初期利用ガイドラインを説明する。
提案手法
- Twitter streaming API と Tweepy を使用して、2020年1月1日から2020年4月15日までのアラビア語 COVID-19 関連ツイートを収集する。
- ツイートID、ユーザー名、ハッシュタグ、ジオロケーションが利用可能な場合は完全なツイートオブジェクトを保持する。
- アラビア語の COVID-19 関連用語を追跡するために英語翻訳を含むキーワードリストを作成し、ストリーミング API で関連ツイートを追跡する。
- アラビア語の Twitter 上の COVID-19 議論を監視するために、件数と日付を含むハッシュタグのセットを追跡する。
- パンデミック関連のコンテンツを保持するために無関係なツイートを除外する。
- データセットは GitHub を通じてアクセスを提供し、Twitter のコンテンツ再配布ポリシーに準拝するためにツイートIDのみを配布する。完全なオブジェクトは Hydrator などのツールで取得可能であることを記載する。
実験結果
リサーチクエスチョン
- RQ12020年1月1日から4月15日までの期間におけるCOVID-19 に関連するアラビア語ツイッター活動の量と時間的パターンはどのようになるか。
- RQ2収集されたアラビア語COVID-19 ツイートのうちジオタグ付きの割合はどの程度か、また原ツイートとリツイートの比はどれくらいか。
- RQ3アラビア語COVID-19 議論を支配するキーワードとハッシュタグは何で、時間とともにどう変化するか。
- RQ4研究者がデータセットをどのように利用して、アラビア語話者の情報共有、誤情報、行動反応を研究できるか。
- RQ5データセットを研究に利用する際の制約とデータアクセス上の考慮事項は何か。
主な発見
- 2020年1月1日以降、COVID-19 に関連するアラビア語ツイートを合計で 3,934,610 件以上収集した。
- ジオロケーションデータは 219 件のツイートで利用可能で、3,934,235 件はオリジナルツイート、375 件はリツイートである。
- 日平均ツイート収集レートは 77,471 件である。
- 関連ツイートを追跡するためのキーワードとハッシュタグのリストを使用し、表1はキーワード追跡日、表2はハッシュタグと件数を示している。
- データセットは GitHub にホストされ、Twitterのコンテンツ再配布ポリシーに準拠するためにツイートIDのみを配布している。完全なオブジェクトは Hydrator などのツールで取得可能である。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。