[論文レビュー] A machine learning methodology for real-time forecasting of the 2019-2020 COVID-19 outbreak using Internet searches, news alerts, and estimates from mechanistic models
論文は Augmented ARGONet を実時間の 2-day-ahead 予測フレームワークとして紹介します。中国CDCの報告、Baidu 検索、Media Cloud のニュース、および GLEAM の機構的モデル出力を組み合わせて、中国の省レベルでの COVID-19 活動を予測し、クラスタリングとデータ拡張を用います。
We present a timely and novel methodology that combines disease estimates from mechanistic models with digital traces, via interpretable machine-learning methodologies, to reliably forecast COVID-19 activity in Chinese provinces in real-time. Specifically, our method is able to produce stable and accurate forecasts 2 days ahead of current time, and uses as inputs (a) official health reports from Chinese Center Disease for Control and Prevention (China CDC), (b) COVID-19-related internet search activity from Baidu, (c) news media activity reported by Media Cloud, and (d) daily forecasts of COVID-19 activity from GLEAM, an agent-based mechanistic model. Our machine-learning methodology uses a clustering technique that enables the exploitation of geo-spatial synchronicities of COVID-19 activity across Chinese provinces, and a data augmentation technique to deal with the small number of historical disease activity observations, characteristic of emerging outbreaks. Our model's predictive power outperforms a collection of baseline models in 27 out of the 32 Chinese provinces, and could be easily extended to other geographies currently affected by the COVID-19 outbreak to help decision makers.
研究の動機と目的
- 歴史データが乏しい新興アウトブレイクに対して、リアルタイム予測の動機づけを行う。
- 複数のデータストリームを活用するデータ駆動型で地理空間を意識したモデルを開発する。
- クラスタリングとデータ拡張を用いてデータ不足を緩和し、省クラスタ化された予測子を訓練する。
- データ駆動予測フレームワークへ機構的モデル推定値を組み込むことの付加価値を評価する。
提案手法
- 地理時系列パターンに基づいて省クラスタを作成し、予測日ごとにモデルを再訓練する。
- Gaussianノイズを用いたブートストラップ再サンプリングによるデータ拡張を用いて、クラスタごとの訓練データを拡大する。
- 過去の症例、Baidu 検索、Media Cloud の記事、死者数、累積症例数を入力として、次の 2-day の症例数を予測する LASSO 複数変量線形モデルを適合させる。
- クラスタリングと拡張に先立って、機構的モデル推定値(GLEAM)を Augmented ARGONet の入力として組み込む。
- 予測利得を評価するために、ベースラインの persistence、自己回帰、機械的入力を用いない ARGONet と比較して予測の改善を評価する。
実験結果
リサーチクエスチョン
- RQ1公式報告、インターネット検索、ニュース、機構的予測を含む複数ソースのデータは、省レベルでのCOVID-19 活動を近リアルタイムで予測できるか?
- RQ2限られた歴史的観測しかない状況で、クラスタリングとデータ拡張は予測性能を改善するか?
- RQ3データ駆動予測フレームワークに機構的モデル推定を含めることの追加価値は何か?
主な発見
- Augmented ARGONet は、中国の32省のうち27省において、2-day ahead 予測で persistence baseline を上回る。
- ARGONet with clustering and augmentation は、25/32 省で RMSE を改善し、18 省で相関を改善する。
- 機構的モデル推定を組み込むことは、大多数の省で予測力を向上させる。
- 一部の地域(Taiwan、Hong Kong、Guangxi、Shanxi、Liaoning)は RMSE の改善を示さなかった。行政/保健システムの違いが原因と考えられる。
- 地元省データのみを用いたモデルは概ねベースラインを上回らず、一方で ARGO 型のモデルは限定的な改善を示した。
- 全体として、限られたデータしかない新興アウトブレイク時のリアルタイム予測能力を示している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。