QUICK REVIEW

[論文レビュー] A Multi-Variate Triple-Regression Forecasting Algorithm for Long-Term Customized Allergy Season Prediction

Xiao-Yu Wu, Zeyu Bai|arXiv (Cornell University)|May 10, 2020

Forecasting Techniques and Applications参考文献 24被引用数 24

ひとこと要約

本論文では、過去の花粉濃度と11種類の気象共変数を統合することで、長期的で患者別カスタマイズ可能な飛散花粉アレルギー季節の開始日と終了日を予測する多変量3段階回帰アルゴリズムを提案する。3段階の回帰（まず季節の日付を予測し、次に不確実性を推定し、最後に重み付き線形回帰を適用する）を経て、予測誤差を低減し、バックテストで平均絶対誤差（MAE）4.7日を達成した。

ABSTRACT

In this paper, we propose a novel multi-variate algorithm using a triple-regression methodology to predict the airborne-pollen allergy season that can be customized for each patient in the long term. To improve the prediction accuracy, we first perform a pre-processing to integrate the historical data of pollen concentration and various inferential signals from other covariates such as the meteorological data. We then propose a novel algorithm which encompasses three-stage regressions: in Stage 1, a regression model to predict the start/end date of a airborne-pollen allergy season is trained from a feature matrix extracted from 12 time series of the covariates with a rolling window; in Stage 2, a regression model to predict the corresponding uncertainty is trained based on the feature matrix and the prediction result from Stage 1; in Stage 3, a weighted linear regression model is built upon prediction results from Stage 1 and 2. It is observed and proved that Stage 3 contributes to the improved forecasting accuracy and the reduced uncertainty of the multi-variate triple-regression algorithm. Based on different allergy sensitivity level, the triggering concentration of the pollen - the definition of the allergy season can be customized individually. In our backtesting, a mean absolute error (MAE) of 4.7 days was achieved using the algorithm. We conclude that this algorithm could be applicable in both generic and long-term forecasting problems.

研究の動機と目的

個々の患者の感受性レベルを考慮した長期予測モデルを構築すること。
1変量モデルを上回る予測精度を実現するため、複数の気象的および環境的共変数を統合して、アレルギー季節の開始日と終了日の予測を改善すること。
段階的回帰フレームワークを用いて、前期段階の不確実性推定を統合することで、予測の不確実性を低減すること。
患者の感受性閾値（花粉濃度と通常日数）に基づいてカスタマイズ可能なアレルギー季節定義を可能にすること。

提案手法

14日間のローリングウインドウを用いて、花粉濃度、気温、風速、降水量など12つの時系列データを前処理し、各系列から30の特徴量を抽出して特徴量行列を構築する。
段階1回帰を実行し、過去のデータから得た特徴量行列を用いてアレルギー季節の開始日・終了日を予測する。
段階2回帰を実施し、同じ特徴量行列を用いて段階1の予測の不確実性（標準偏差）を推定する。
段階3の重み付き線形回帰を実行し、段階1の予測結果を不確実性の逆数を重みとして組み合わせることで分散を最小化し、精度を向上させる。
閾値ベースの定義を採用：連続7日間のうち少なくともδN=4日間で花粉濃度がδCを超える日が1日目として定義される。δCは患者ごとにカスタマイズ可能。
段階3における不確実性低減のための最小予測数Nnを決定するための閾値関数fth(Nn)を導入する。

実験結果

リサーチクエスチョン

RQ11変量モデルと比較して、多変量3段階回帰モデルは、アレルギー季節の開始日・終了日の長期的予測精度を向上させることができるか？
RQ2気温、風速、降水量などの気象的共変数を統合することで、年次変動が著しいアレルギー季節の予測性能はどのように向上するか？
RQ31段階回帰と比較して、3段階回帰フレームワークは予測不確実性をどの程度低減するか？
RQ43段階回帰モデルにおいて、最終予測の不確実性を低減するために必要な最小予測数（Nn）はどの程度か？
RQ5患者固有の感受性閾値（δCとδN）に基づいてカスタマイズ可能なアレルギー季節定義を実現しつつ、高い予測精度を維持できるか？

主な発見

3段階回帰アルゴリズムは、2006年から2008年の期間にわたりバックテストで、アレルギー季節の開始日について平均絶対誤差（MAE）4.7日を達成した。
段階3の重み付き線形回帰は、1段階回帰と比較して予測不確実性を顕著に低減したが、その効果は段階1の最小予測数（Nn）を満たした場合に限られる。
不確実性の閾値関数fth(Nn)を導出し、不確実性低減に必要な最小Nnを決定した。β0の値が高くなるほど、必要な予測数も増加する。
段階3の最終予測は2005年においてDay 54に収束し、実際の開始日（Day 51）に近く、収束性と精度の両方を示した。
δCとδNを調整することで、患者ごとのカスタマイズ可能なアレルギー季節定義を効果的にサポートでき、個別化された予測が可能になった。
花粉濃度データに加えて11種類の気象的共変数を統合することで、1変量アプローチに比べてモデルの性能が顕著に向上した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。