Skip to main content
QUICK REVIEW

[论文解读] NAIST COVID: Multilingual COVID-19 Twitter and Weibo Dataset

Zhiwei Gao, Shuntaro Yada|arXiv (Cornell University)|Apr 17, 2020
Misinformation and Its Impacts参考文献 3被引用 24
一句话总结

本文介紹了NAIST COVID數據集,這是一個多語言的社交媒體數據集,包含2000多萬條與2020年1月20日至3月24日期間COVID-19相關的推特(英語、日語)和微博(中文)短訊。該數據集通過基於關鍵字的收集方法實現跨語言社交媒體分析,並公開發布於GitHub,支持對疫情情感、信息傳播和公共衛生溝通的研究。

ABSTRACT

Since the outbreak of coronavirus disease 2019 (COVID-19) in the late 2019, it has affected over 200 countries and billions of people worldwide. This has affected the social life of people owing to enforcements, such as "social distancing" and "stay at home." This has resulted in an increasing interaction through social media. Given that social media can bring us valuable information about COVID-19 at a global scale, it is important to share the data and encourage social media studies against COVID-19 or other infectious diseases. Therefore, we have released a multilingual dataset of social media posts related to COVID-19, consisting of microblogs in English and Japanese from Twitter and those in Chinese from Weibo. The data cover microblogs from January 20, 2020, to March 24, 2020. This paper also provides a quantitative as well as qualitative analysis of these datasets by creating daily word clouds as an example of text-mining analysis. The dataset is now available on Github. This dataset can be analyzed in a multitude of ways and is expected to help in efficient communication of precautions related to COVID-19.

研究动机与目标

  • 為解決COVID-19研究中缺乏公開可用的多語言社交媒體數據集,特別是來自中國等疫情早期地區的數據,提出本研究。
  • 透過在疫情初期階段對實時社交媒體言論進行大規模分析,支持全球公共衛生監測。
  • 提供一個標準化且易於訪問的數據集,以捕捉疫情初期多語言公眾情感、信息傳播與政策相關討論。
  • 透過包含美國、日本和中國主要社交媒體平台的數據,促進語言與文化之間的比較研究。
  • 鼓勵對疫情溝通、情感趨勢以及公共衛生公告對社交媒體行為影響的研究。

提出的方法

  • 分為三個階段,使用基於關鍵字的查詢收集短訊:疫情爆發初期(武漢 + 肺炎/冠狀病毒)、官方命名階段(武漢 + COVID-19),以及放寬搜尋(單獨關鍵字)。
  • 使用推特搜尋API收集英語與日語推文,並使用網頁爬蟲收集中文微博內容,過濾掉轉發與非原創內容,以確保資料獨特性。
  • 應用語言特定的關鍵字:英語(Wuhan, pneumonia, coronavirus, COVID-19)、日語(武漢, 肺炎, コロナ, COVID-19)與中文(武漢, 肺炎, 冠狀病毒, 新冠肺炎)。
  • 每日從日本標準時間0:00至23:59收集資料,確保時間一致性並減少重複。
  • 每日生成詞雲,作為一種定性文本挖掘技術,以可視化隨時間推移的公眾言論演變與主要主題。
  • 根據推特與微博的服務條款,將數據集公開發布於GitHub,並持續更新以維持資料的新鮮度。

实验结果

研究问题

  • RQ1在疫情初期階段,英語、日語與中文社交媒體上的公眾言論如何演變?
  • RQ2與疫情爆發和發展相關的多語言社交媒體言論中,主要主題與關鍵字為何?
  • RQ3重大公共衛生事件(如世界衛生組織宣布疫情為大流行、奧運會延期、確認為人傳人)如何影響社交媒體活躍度與語言使用?
  • RQ4社交媒體趨勢在多大程度上反映了公眾情感與對社交距離、居家隔離等預防措施的認知?
  • RQ5不同地區在疫情應對與媒體報道上的差異,如何塑造跨語言的社交媒體敘事?

主要发现

  • 該數據集包含超過2000萬則短訊:英語1600萬則、日語900萬則、中文18萬則,資料收集期間為2020年1月20日至3月24日。
  • 英語數據集在2020年3月11日世界衛生組織宣布COVID-19為大流行後,短訊數量急劇上升,同時「social distancing」與「stay home」的使用頻率也顯著增加。
  • 在日本,2020年1月28日出現首例本地傳播病例,詞雲顯示「奈良」、「巴士」與「駕駛」等詞,與一名前往武漢的旅遊巴士司機有關。
  • 2020年3月24日的日本詞雲中出現「オリンピック」(奧運會)與「延期」(延期),反映國際奧會宣布延後東京2020奧運會的決定。
  • 在微博上,2020年1月20日鐘南山醫生確認人傳人後,「鐘南山」一詞在詞雲中顯著突出。
  • 2020年3月10日,「方舱医院」(移動式隔離醫院)一詞在中文詞雲中極為顯著,與武漢所有此類設施關閉的時間點一致。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。