Skip to main content
QUICK REVIEW

[论文解读] What is the people posting about symptoms related to Coronavirus in Bogota, Colombia?

Josimar Edinson Chire Saire, Roberto Campos Navarro|arXiv (Cornell University)|Mar 25, 2020
Data-Driven Disease Surveillance参考文献 7被引用 28
一句话总结

本研究利用文本挖掘与自然语言处理(NLP)对2019年12月29日至2020年3月14日哥伦比亚波哥大地区的Twitter数据进行分析,探讨公众对COVID-19症状的讨论。研究发现,与确诊病例数呈正相关的症状类帖子数量呈上升趋势,识别出发热、咳嗽和呼吸困难等关键症状,并证明社交媒体在疫情期间具备实时公共卫生监测的实用价值。

ABSTRACT

During the last months, there is an increasing alarm about a new mutation of coronavirus, covid-19 coined by World Health Organization(WHO) with an impact in many areas: economy, health, politics and others. This situation was declared a pandemic by WHO, because of the fast expansion over many countries. At the same time, people is using Social Networks to express what they think, feel or experiment, so this people are Social Sensors and helps to analyze what is happening in their city. The objective of this paper is analyze the publications of Colombian people living in Bogota with a radius of 50 km using Text Mining techniques from symptomatology approach. The results support the understanding of the spread in Colombia related to symptoms of covid19.

研究动机与目标

  • 通过社交媒体了解波哥大公众对COVID-19症状的讨论。
  • 评估症状提及的相关性及其与疫情发展进程的时间关联性。
  • 评估Twitter作为实时公共卫生监测预警工具的潜力。
  • 识别波哥大地区最常讨论的症状及其时间趋势。
  • 通过用户账号创建时间分析评估社交媒体内容的可信度。

提出的方法

  • 使用Twitter API收集地理定位(波哥大,50公里半径)、语言(西班牙语)和日期范围(2019年12月29日至2020年3月14日)的Twitter数据。
  • 提取西班牙语中的症状相关关键词,包括'fiebre'(发热)、'tos'(咳嗽)、'dificultad_respirar'(呼吸困难)、'gripe'(流感)和'contagio'(感染)。
  • 执行文本预处理:全小写转换、特殊字符删除、长度≤3个字符的词移除及停用词过滤。
  • 通过每日推文数量、词云图和用户账号创建日期分析可视化数据,以评估内容可信度。
  • 将每日症状提及频率与哥伦比亚卫生部发布的官方感染数据进行相关性分析。
  • 采用自然语言处理(NLP)与文本挖掘技术分析公众情绪与症状趋势。

实验结果

研究问题

  • RQ1在波哥大,Twitter上关于COVID-19症状的公众讨论在首例确诊病例前后如何演变?
  • RQ2在波哥大,公众在Twitter上讨论的COVID-19相关症状中,哪些出现频率最高?
  • RQ3症状类推文数量与哥伦比亚实际确诊病例数之间是否存在时间相关性?
  • RQ4基于账号创建日期,讨论症状的社交媒体账号可信度如何?
  • RQ5社交媒体数据在多大程度上可作为疫情暴发期间公共卫生趋势的实时指标?

主要发现

  • 2020年3月8日至14日期间,观察到症状类推文数量显著增加,与哥伦比亚确诊病例上升趋势一致。
  • 词云图中提及频率最高的症状为'dolor'(疼痛)、'cabeza'(头部)、'fiebre'(发热)、'contagio'(感染)、'tos'(咳嗽)和'estornudar'(打喷嚏)。
  • 提及症状的每日推文数量与哥伦比亚实际确诊病例数之间存在显著的自然相关性。
  • 大多数讨论症状的Twitter账号创建时间超过六年,表明其为虚假账号或受协调操控的可能性较低。
  • 词云图中'coronavirus'(冠状病毒)一词显著突出,表明公众意识与讨论程度持续提升。
  • 本研究证实,社交媒体数据,尤其是Twitter数据,可作为疫情期间实时公共卫生监测的补充工具。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。