Skip to main content
QUICK REVIEW

[論文レビュー] A County-level Dataset for Informing the United States' Response to COVID-19

Benjamin D. Killeen, Jie Ying Wu|arXiv (Cornell University)|Apr 1, 2020
COVID-19 epidemiological studies参考文献 11被引用数 87
ひとこと要約

郡レベルの機械可読データセットを用い、COVID-19の時系列、NPIs、モビリティ、および300を超える人口統計・社会経済変数を統合して地域拡散を研究し、介入のロールバックを情報に基づいて判断する。コードとデータは公開されています。

ABSTRACT

As the coronavirus disease 2019 (COVID-19) continues to be a global pandemic, policy makers have enacted and reversed non-pharmaceutical interventions with various levels of restrictions to limit its spread. Data driven approaches that analyze temporal characteristics of the pandemic and its dependence on regional conditions might supply information to support the implementation of mitigation and suppression strategies. To facilitate research in this direction on the example of the United States, we present a machine-readable dataset that aggregates relevant data from governmental, journalistic, and academic sources on the U.S. county level. In addition to county-level time-series data from the JHU CSSE COVID-19 Dashboard, our dataset contains more than 300 variables that summarize population estimates, demographics, ethnicity, housing, education, employment and income, climate, transit scores, and healthcare system-related metrics. Furthermore, we present aggregated out-of-home activity information for various points of interest for each county, including grocery stores and hospitals, summarizing data from SafeGraph and Google mobility reports. We compile information from IHME, state and county-level government, and newspapers for dates of the enactment and reversal of non-pharmaceutical interventions. By collecting these data, as well as providing tools to read them, we hope to accelerate research that investigates how the disease spreads and why spread may be different across regions. Our dataset and associated code are available at github.com/JieYingWu/COVID-19_US_County-level_Summaries.

研究の動機と目的

  • 米国内の郡別に、データ駆動型のCOVID-19拡散分析を動機づける。
  • 疫学データ、モビリティ、社会経済変数を組み合わせた機械可読な多源データセットを提供する。
  • 地域差が伝播とNPIsの有効性に与える影響を分析できるようにする。

提案手法

  • 政府機関、報道機関、学術ソースから郡別データを集約し、機械可読CSVと付随のデータパイプラインを作成する。
  • 人口、人口統計、住宅、気候、交通、医療提供能力を含む300超の変数を統合する。
  • 感染・死亡の時系列データとNPIsおよびロールバックの日付を機械可読性のために序数日付で取り込む。
  • SafeGraphおよびGoogleモビリティレポートの外出活動データを郡レベルで集約する。
  • 適切な箇所で州全体の平均を用いて静的データの欠損を補完する。
  • データセットを読み取り、疫学的予測や政策分析に活用するためのコードとリポジトリを提供する。

実験結果

リサーチクエスチョン

  • RQ1郡レベルの要因(人口統計、経済、気候、モビリティ、医療提供能力)はCOVID-19拡散と重症度とどのように相関するか?
  • RQ2郡レベル/州レベルでの非薬物介入(NPIs)とそのロールバックは、郡全体の後続の感染傾向とどのように関連するか?
  • RQ3機械学習アプローチは、分段的な隔離措置の効果的なロールバックを導く最も関連性の高い要因を特定できるか?

主な発見

データタイプ出典時系列カバレッジ/ノート郡カバレッジ/利用可能性
COVID-19 InfectionsJHU CSSE COVID-19 DashboardTime-series beginning Jan 22, 2020; per-county infections and deaths3220 counties + states, DC, US
COVID-19 Related DeathsJHU CSSE COVID-19 DashboardTime-series3220 counties + states, DC, US
Interventions (NPIs)IHME / NYT / IHME-derived sourcesDate of implementation and rollbacks; Gregorian ordinal formatCounty-level when possible; nationwide coverage
Out-of-home Activity (SafeGraph)SafeGraph Footprint dataMarch 2020 time-seriesCounty-level aggregates (privacy-preserving)
Google MobilityGoogle Mobility ReportsMarch–2020 onward; six location typesCounty-level aggregates
Population EstimatesUS Census2018 estimates; staticCounty-level coverage (FIPS)
Education AttainmentUS Census2014-2018 estimates; staticCounty-level coverage
Poverty / Employment (USDA)USDA ERS2018 estimates; staticCounty-level coverage
Precipitation & TemperatureNOAA2019 observations; imputed where neededCounty-level coverage
Housing & DensityUS Census2010 housing density; staticCounty-level coverage
Age & Household DemographicsUS Census2018 estimates; staticCounty-level coverage
Ethnic Group DemographicsUS Census2018 estimates; staticCounty-level coverage
Healthcare Capacity (Physicians/NPs/PAs)AAMC / KFF2019 health workforce data; staticCounty-level coverage
ICU BedsKFF / Associated sources2019 ICU bed counts; staticCounty-level coverage
Public Transit ScoresCNT2019 scores; staticCounty-level coverage
Crime RatesDOJ2016 crime rates; staticCounty-level coverage
  • このデータセットは、COVID-19の時系列データとNPI日付を含む、3220の郡相当(州、DC、米全体を含む)で300超の変数を含む。
  • 準拠と行動変化を評価するため、SafeGraphとGoogleモビリティレポートからの外出活動・モビリティデータが提供される。
  • 欠損静的データに対して州全体の平均を用いた補完が行われ、郡レベルのカバレッジを維持。
  • 郡レベルの文脈因子が疾病拡散と介入効果にどのように関連するかを強調しており、データ駆動の予測と政策分析を可能にする。
  • リポジトリは機械可読フォーマットとツールを提供し、疫学モデル化とシナリオ分析を加速する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。