Skip to main content
QUICK REVIEW

[論文レビュー] NAIST COVID: Multilingual COVID-19 Twitter and Weibo Dataset

Zhiwei Gao, Shuntaro Yada|arXiv (Cornell University)|Apr 17, 2020
Misinformation and Its Impacts参考文献 3被引用数 24
ひとこと要約

本稿では、2020年1月20日から3月24日までに収集された、COVID-19関連の2000万件を超える多言語のTwitter(英語、日本語)およびWeibo(中国語)のマイクロブログを含むNAIST COVIDデータセットを紹介する。このデータセットはキーワードベースの収集により多言語間のソーシャルメディア分析を可能にし、GitHubで公開されており、パンデミックの感情分析、情報拡散、公衆衛生コミュニケーションに関する研究を支援する。

ABSTRACT

Since the outbreak of coronavirus disease 2019 (COVID-19) in the late 2019, it has affected over 200 countries and billions of people worldwide. This has affected the social life of people owing to enforcements, such as "social distancing" and "stay at home." This has resulted in an increasing interaction through social media. Given that social media can bring us valuable information about COVID-19 at a global scale, it is important to share the data and encourage social media studies against COVID-19 or other infectious diseases. Therefore, we have released a multilingual dataset of social media posts related to COVID-19, consisting of microblogs in English and Japanese from Twitter and those in Chinese from Weibo. The data cover microblogs from January 20, 2020, to March 24, 2020. This paper also provides a quantitative as well as qualitative analysis of these datasets by creating daily word clouds as an example of text-mining analysis. The dataset is now available on Github. This dataset can be analyzed in a multitude of ways and is expected to help in efficient communication of precautions related to COVID-19.

研究の動機と目的

  • パンデミック初期の地域(中国など)からのデータを含め、COVID-19研究に役立つ公開可能な多言語ソーシャルメディアデータセットが不足しているという問題に対処すること。
  • パンデミック初期段階におけるリアルタイムのソーシャルメディアディス course の大規模分析を可能にすることで、世界的な公衆衛生監視を支援すること。
  • パンデミック初期における多言語の公衆感情、情報拡散、政策関連の議論を捉える標準的かつアクセス可能なデータセットを提供すること。
  • 米国、日本、中国の主要ソーシャルメディアプラットフォームからのデータを含めることで、言語および文化的な視点からの比較研究を促進すること。
  • パンデミックコミュニケーション、感情の傾向、公衆衛生発表がソーシャルメディア行動に与える影響に関する研究を奨励すること。

提案手法

  • 初期のアウトブレイク(武漢+肺炎/コロナウイルス)、公式名称の導入(武漢+COVID-19)、緩い検索(個別キーワード)の3段階に分け、キーワードベースのクエリによるマイクロブログ収集を実施。
  • 英語および日本語のツイートにはTwitter Search APIを、中国語のWeibo投稿にはウェブクローラーを用い、リツイートや非オリジナルコンテンツを除外することでデータの一意性を確保。
  • 言語に特化したキーワードを適用:英語(Wuhan, pneumonia, coronavirus, COVID-19)、日本語(武漢, 肺炎, コロナ, COVID-19)、中国語(武汉, 肺炎, 冠状ウイルス, 新冠肺炎)。
  • 毎日、日本標準時(JST)の0:00から23:59まで収集を実施し、時系列的一致性を確保するとともに重複を最小限に抑えた。
  • 日々のワードクラウドを生成することで、質的テキストマイニング手法として、時間経過に伴う公衆ディスコースおよび主要テーマの変化を可視化。
  • TwitterおよびWeiboの利用規約に従い、GitHubにデータセットを公開し、データの新鮮さを維持するべく継続的な更新を実施。

実験結果

リサーチクエスチョン

  • RQ1パンデミック初期段階において、英語、日本語、中国語のソーシャルメディアでCOVID-19に関する公衆ディスコースはどのように変化したか?
  • RQ2パンデミックの発生および進行段階に関連する多言語のソーシャルメディアディスコースにおける支配的テーマおよびキーワードは何か?
  • RQ3WHOによるパンデミック宣言、オリンピックの延期、人間間感染の確認といった主要な公衆衛生イベントは、ソーシャルメディア活動および言語使用にどのように影響したか?
  • RQ4ソーシャルメディアのトレンドは、ソーシャルディスタンスや自宅待機といった予防策に関する公衆の感情および認識をどの程度反映しているか?
  • RQ5パンデミック対応およびメディア報道の地域的差異は、言語ごとのソーシャルメディアナラティブにどのように影響しているか?

主な発見

  • データセットは2000万件を超えるマイクロブログを含む:英語で1600万件、日本語で900万件、中国語で18万件を収集(2020年1月20日~3月24日)。
  • 英語データセットでは、2020年3月11日にWHOがCOVID-19をパンデミックと宣言したのを皮切りに、マイクロブログの投稿数が急増し、「social distancing」と「stay home」の使用頻度も上昇した。
  • 日本では、2020年1月28日に初の国内感染が確認されたことが、ワードクラウドに「奈良」「バス」「運転手」といったキーワードとともに反映された。これは、武漢行きの観光バスの運転手が感染したことに起因する。
  • 2020年3月24日の日本語ワードクラウドには「オリンピック」と「延期」が目立った。これは国際オリンピック委員会(IOC)が東京2020大会の開催を延期した発表を反映している。
  • Weiboでは、2020年1月20日に鐘南山医師が人間間感染の確認を発表したのを受けて、ワードクラウドに「钟南山」が顕著に現れた。
  • 2020年3月10日には中国語のワードクラウドで「方舱医院」(モバイルキャビン病院)が顕著に現れ、武漢でのすべての施設の閉鎖と一致した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。