[論文レビュー] What is the people posting about symptoms related to Coronavirus in Bogota, Colombia?
本研究では、コロンビア・ボゴタのツイッター投稿データ(2019年12月29日〜2020年3月14日)を対象にテキストマイニングおよび自然言語処理(NLP)を用い、COVID-19の症状に関する公的議論を分析した。感染確認数と相関する上昇傾向が確認され、発熱、咳、呼吸困難といった主要な症状が特定され、パンデミック期におけるリアルタイムの公衆衛生監視にソーシャルメディアの有効性が示された。
During the last months, there is an increasing alarm about a new mutation of coronavirus, covid-19 coined by World Health Organization(WHO) with an impact in many areas: economy, health, politics and others. This situation was declared a pandemic by WHO, because of the fast expansion over many countries. At the same time, people is using Social Networks to express what they think, feel or experiment, so this people are Social Sensors and helps to analyze what is happening in their city. The objective of this paper is analyze the publications of Colombian people living in Bogota with a radius of 50 km using Text Mining techniques from symptomatology approach. The results support the understanding of the spread in Colombia related to symptoms of covid19.
研究の動機と目的
- ボゴタ、コロンビアにおけるソーシャルメディアを用いたCOVID-19の症状関連の公的議論を理解すること。
- パンデミックの進行に伴い、症状の言及がどの程度関連し、タイミング的に適切であるかを評価すること。
- ツイッターが公衆衛生監視のリアルタイム監視ツールとしての可能性を評価すること。
- ボゴタにおける最も頻出する症状とその時間的傾向を特定すること。
- ユーザーのアカウント作成日を分析することで、ソーシャルメディアのコンテンツの信頼性を検証すること。
提案手法
- 地理的範囲(ボゴタ、半径50km)、言語(スペイン語)、日付範囲(2019年12月29日〜2020年3月14日)を指定し、Twitter APIを用いてツイッターデータを収集した。
- スペイン語での症状関連キーワード('fiebre'、'tos'、'dificultad_respirar'、'gripe'、'contagio')を抽出した。
- テキスト前処理を実施:小文字変換、特殊文字の除去、3文字以下の語の削除、ストップワードのフィルタリング。
- 日次ツイート数、ワードクラウド、ユーザーのアカウント作成日付分析を用いてデータを可視化し、信頼性を評価した。
- 日次での症状言及頻度とコロンビア保健省が公表した公式感染データを相関分析した。
- 自然言語処理(NLP)およびテキストマイニング技術を用いて、感情分析と症状の傾向を分析した。
実験結果
リサーチクエスチョン
- RQ1ボゴタのツイッター上でのCOVID-19症状に関する議論は、初例の確認後、どのように変化したか?
- RQ2ボゴタにおけるCOVID-19関連のツイッター議論で最も頻出する症状は何か?
- RQ3症状関連ツイートの件数と、コロンビアの確定感染数の間に時間的相関があるか?
- RQ4アカウント作成日付を基準にした場合、症状を議論するソーシャルメディアアカウントの信頼性はどの程度か?
- RQ5パンデミック期に、ソーシャルメディアデータが公衆衛生トレンドのリアルタイム指標としてどの程度活用可能か?
主な発見
- 2020年3月8日〜14日にかけて、感染症の確認数の増加と重なる形で、症状関連ツイートの数に顕著な増加が観察された。
- ワードクラウドで最も頻出していた症状は、'dolor'(痛み)、'cabeza'(頭)、'fiebre'(発熱)、'contagio'(感染)、'tos'(咳)、'estornudar'(くしゃみ)であった。
- 症状関連ツイートの日次件数は、コロンビアの確定感染数と強い自然相関を示した。
- 症状を議論する大多数のツイッターアカウントは6年以上前に作成されており、意図的な誤情報拡散やフェイクアカウントの可能性は低いとされた。
- ワードクラウドに顕著に現れた'coronavirus'という語は、公的認識の向上と議論の拡大を示唆した。
- 本研究では、特にツイッターからのソーシャルメディアデータが、パンデミック期におけるリアルタイムの公衆衛生監視の補完的ツールとして有効であると確認した。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。