[論文レビュー] ArCOV-19: The First Arabic COVID-19 Twitter Dataset with Propagation Networks
ArCOV-19は、公開されている最初のアラビア語COVID-19ツイッターデータセットで、2.7百万件のソースツイートを網羅し、上位サブセットの伝播ネットワークとともに、クエリと言語に依存しないクローラーを提供します。
In this paper, we present ArCOV-19, an Arabic COVID-19 Twitter dataset that spans one year, covering the period from 27th of January 2020 till 31st of January 2021. ArCOV-19 is the first publicly-available Arabic Twitter dataset covering COVID-19 pandemic that includes about 2.7M tweets alongside the propagation networks of the most-popular subset of them (i.e., most-retweeted and -liked). The propagation networks include both retweets and conversational threads (i.e., threads of replies). ArCOV-19 is designed to enable research under several domains including natural language processing, information retrieval, and social computing. Preliminary analysis shows that ArCOV-19 captures rising discussions associated with the first reported cases of the disease as they appeared in the Arab world. In addition to the source tweets and propagation networks, we also release the search queries and language-independent crawler used to collect the tweets to encourage the curation of similar datasets.
研究の動機と目的
- NLP、IR、ソーシャルコンピューティング研究を可能にするため、2020年1月27日から2021年1月31日までをカバーするアラビア語のみのCOVID-19に関するツイッター・データセットを作成する。
- 最も人気のあるツイートの伝播ネットワーク(リツイートおよび会話スレッド)を提供し、情報拡散の分析を支援する。
- 検索クエリ、クローラーの実装、および他者が同様のデータセットを作成するのを支援するリソースを公開する。
- データセットの特徴を示す時間的、地理的、話題的次元の予備分析を提供する。
- 今後の研究の指針となるよう、緊急事態管理、誤情報検出、ソーシャル分析のユースケースを提案する。
提案手法
- 手作成したクエリを用いた言語フィルタ付きTwitter検索APIクローラーを用いて、日次でソースツイートを収集する。
- クエリのデデュプリケーションとリツイートの除外を行い、固有のアラビア語ソースツイートを取得する。
- 不適切なコンテンツ、URL/ハッシュタグ/長さに基づくスパムチェック、および人気度评分(リツイートとお気に入りの合計)でトップサブセットを構築する。
- トップサブセットについて、PickawとPHEMEベースのTwitter会話収集スクリプトを使用して、リツイートと返信スレッドの完全な伝播ネットワークを収集する。
- ソースツイートID、トップサブセットID、検索クエリ、伝播ネットワークを含むデータセット成分を公開し、公開クローラーへのリンクを提供する。
実験結果
リサーチクエスチョン
- RQ1パンデミックの最初の1年にわたるアラビア語COVID-19ツイッター・データセットの特性とカバレッジはどうなっているか?
- RQ2非常に人気の高いアラビア語COVID-19ツイートの伝播ネットワークは、リツイートと返信のダイナミクスの観点でどのようになっているか?
- RQ3アラビア語のCOVID-19論調における地域的および話題的なパターンはどのように出現し、それがアラブ諸国における流行の時系列とどう反映しているか?
主な発見
- データセットには、690,339人のユニークユーザーによって投稿された2,675,049件のソースツイートが含まれており、18.66%が検証済みアカウントで、25.40%にURLが含まれている。
- 地理的タグ付きツイート(place属性)は、2,078件のジオタグ付きツイートから合計60,873件で、投稿者はそれぞれ24,072名と256名のユニークユーザー。
- トップサブセットは370,132ツイート(ソースツイートの13.84%)で、トップサブセットのリツイート総数は7,925,821、返信は1,476,950件(2020年4月時点データ)に達する。
- 地理的に特定されたコンテンツは主にアラブ世界(92.75%)からであり、サウジアラビアが地理的に特定されたツイートの約41.7%、クウェートが約9.6%を占める。
- トップツイートのURLは主にエジプト、サウジアラビア、UAEのニュースドメインを指し、YouTube動画がよく共有されるメディアの1つで、ツイートの36%に画像や動画が埋め込まれている。
- 時系列プロットは、2020年3月にアラブ世界でCOVID-19の拡大とともにツイート量が急増することを示しており、話題と国名の頻度は最初に報告された症例と相関している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。