Skip to main content
QUICK REVIEW

[论文解读] Open Data Resources for Fighting COVID-19

Teodoro Álamo, Reina Dg|arXiv (Cornell University)|Apr 13, 2020
COVID-19 epidemiological studies参考文献 48被引用 23
一句话总结

本文全面综述了用于研究和应对COVID-19大流行的开放数据资源,重点关注与病例、死亡率、政府措施、人口统计、移动性及天气相关的全球和区域数据集。评估了数据质量,识别了关键机构和数据存储库,并提出了一套可重用性评分框架,以指导研究人员选择可靠、可访问且互操作的数据源,用于数据驱动的建模和公共卫生决策。

ABSTRACT

We provide an insight into the open data resources pertinent to the study of the spread of Covid-19 pandemic and its control. We identify the variables required to analyze fundamental aspects like seasonal behaviour, regional mortality rates, and effectiveness of government measures. Open data resources, along with data-driven methodologies, provide many opportunities to improve the response of the different administrations to the virus. We describe the present limitations and difficulties encountered in most of the open-data resources. To facilitate the access to the main open-data portals and resources, we identify the most relevant institutions, at a world scale, providing Covid-19 information and/or auxiliary variables (demographics, mobility, etc.). We also describe several open resources to access Covid-19 data-sets at a country-wide level (i.e. China, Italy, Spain, France, Germany, U.S., etc.). In an attempt to facilitate the rapid response to the study of the seasonal behaviour of Covid-19, we enumerate the main open resources in terms of weather and climate variables. CONCO-Team: The authors of this paper belong to the CONtrol COvid-19 Team, which is composed of different researches from universities of Spain, Italy, France, Germany, United Kingdom and Argentina. The main goal of CONCO-Team is to develop data-driven methods for the better understanding and control of the pandemic.

研究动机与目标

  • 识别并编目全球和国家层面上研究COVID-19传播与控制最相关的开放数据源。
  • 突出显示对准确流行病学建模至关重要的辅助变量,如人口统计、移动性、天气和政府干预措施。
  • 评估现有开放数据源的可重用性和可靠性,解决常见数据质量问题,如格式不一致、标准变化和缺乏标准化。
  • 通过提供一个集中化、经筛选的指南,支持数据科学家、流行病学家和公共卫生研究人员,确保其可访问稳定、可访问且文档齐全的数据存储库。
  • 提出一个标准化的可重用性评分框架(0–55分),基于许可、访问、地理定位、格式和标准化等维度,评估数据源。

提出的方法

  • 系统性识别和分类全球及国家开放数据提供方,包括世卫组织(WHO)、约翰霍普金斯大学、欧洲疾病预防控制中心(ECDC)、Our World in Data,以及各国卫生机构。
  • 从高影响力国家(如中国、意大利、西班牙、美国)和区域来源(如非洲疾病控制中心、EuroMOMO)整理国家特定的数据集,涵盖病例、检测、住院和重症监护病房(ICU)数据。
  • 汇编人口统计、移动性(如谷歌移动性报告)、天气和气候变量等辅助数据集,以支持季节性行为分析。
  • 开发一个七维可重用性评分框架(许可、访问、地理定位、格式、标准化、文档、时效性),应用于20多个数据源。
  • 通过分析数据格式一致性、API可用性和元数据完整性,评估数据源的可靠性。
  • 使用GitHub、Kaggle和哈佛大学Dataverse作为关键存储库,以追踪和访问社区整理的数据集。

实验结果

研究问题

  • RQ1哪些全球和国家开放数据源能够提供关于COVID-19病例、死亡率和公共卫生干预措施的可靠、及时且标准化的数据?
  • RQ2不同数据源之间在数据格式、定义和报告标准方面的不一致性,如何影响流行病学建模与预测的可靠性?
  • RQ3哪些辅助变量——如天气、移动性及人口统计因素——对于建模SARS-CoV-2的季节性行为和传播动力学至关重要?
  • RQ4现有开放数据源在多大程度上可被用于机器学习和数据驱动的公共卫生研究?主要的重用障碍是什么?
  • RQ5如何在大流行研究背景下,应用标准化评分框架客观评估开放数据源的可重用性和质量?

主要发现

  • 没有一个开放数据源在可重用性框架中得分超过55分中的35分,表明尽管数据可用性高,但数据质量和可访问性仍普遍存在局限。
  • 大多数数据源缺乏API,导致必须每日重新下载全部数据,且在“访问”维度得分极低(满分为5分,仅得1分),仅有11%提供机器可读访问。
  • 地理定位经常不足,70%的数据源仅提供区域级别或无地理元数据,限制了空间分析能力。
  • 数据格式极不一致:.csv格式占主导,但字段名称和定义在不同来源之间差异显著,未观察到任何标准化。
  • 超过50%的数据源使用限制性许可,禁止商业用途,限制了其在应用研究和工业应用中的实用性。
  • 尽管存在这些挑战,约翰霍普金斯大学、Our World in Data以及欧洲疾病预防控制中心(ECDC)仍提供最可靠且更新频繁的数据集。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。