QUICK REVIEW

[論文レビュー] Approximate leave-future-out cross-validation for time series models

Paul‐Christian Bürkner, Jonah Gabry|arXiv (Cornell University)|Feb 17, 2019

Gaussian Processes and Bayesian Inference被引用数 6

ひとこと要約

本稿では、時間系列モデルのための効率的な近似 leave-future-out 交差検証（LFO-CV）手法を提案する。この手法は、Pareto smoothed importance sampling（PSIS）を用いることで、計算コストを著しく削減しながらも、正確性を維持する。予測性能の推定は、将来の予測タスクをシミュレートすることで信頼性が保証され、時系列設定における leave-one-out 交差検証（LOO-CV）の過剰に楽観的なバイアスを回避する。

ABSTRACT

One of the common goals of time series analysis is to use the observed series to inform predictions for future observations. In the absence of any actual new data to predict, cross-validation can be used to estimate a model's future predictive accuracy, for instance, for the purpose of model comparison or selection. As exact cross-validation for Bayesian models is often computationally expensive, approximate cross-validation methods have been developed; most notably methods for leave-one-out cross-validation (LOO-CV). If the actual prediction task is to predict the future given the past, LOO-CV provides an overly optimistic estimate as the information from future observations is available to influence predictions of the past. To tackle the prediction task properly and account for the time series structure, we can use leave-future-out cross-validation (LFO-CV). Like exact LOO-CV, exact LFO-CV requires refitting the model many times to different subsets of the data. Using Pareto smoothed importance sampling, we propose a method for approximating exact LFO-CV that drastically reduces the computational costs while also providing informative diagnostics about the quality of the approximation.

研究の動機と目的

時系列における leave-one-out 交差検証（LOO-CV）の限界を解決すること。LOO-CV は将来の情報漏洩のため、予測が楽観的すぎる推定を提供する。
正確な leave-future-out 交差検証（LFO-CV）の計算コストの高い再適合を回避する、計算効率の良い代替手法を開発すること。
未観測の将来データにおける予測性能を正確に推定することで、将来の予測タスクのための信頼できるモデル比較・選択を可能にすること。
近似の品質を評価する情報提供の診断を提供することで、実用応用における信頼性を確保すること。

提案手法

本手法は、Pareto smoothed importance sampling（PSIS）を用いて、各未来観測値を除外した場合の正確な LFO-CV を、モデルの再適合なしに近似する。
一度のフルモデル適合から得た後方分布のサンプルを再重み付けすることで、各未来観測値を除外した場合の予測性能を推定する。
予測が過去のデータのみに依存するように、時系列構造を考慮した処理を実施することで、実際の将来予測を模倣する。
PSIS は重要度重みを一般化されたPareto分布を用いて安定化させ、ロバスト性を向上させるとともに、形状母数を用いた診断チェックを可能にする。
近似精度に影響を及ぼす可能性のある高レバレッジの未来観測値を同定し、結果が信頼できない可能性がある場合には警告を発する。
最終的な近似により、モデル比較のための期待対数予測密度（ELPD）を高速に計算可能となる。

実験結果

リサーチクエスチョン

RQ1時間系列モデルにおいて、計算コストを大幅に削減しながらも正確性を維持する近似 LFO-CV 手法を開発できるか？
RQ2提案手法である PSIS-LFO-CV は、正確な LFO-CV と比較して、予測性能推定においてどの程度の性能を示すか？
RQ3近似 LFO-CV の結果の信頼性を評価するための診断は、どのようなものか？
RQ4本手法は、時間系列データに適用された場合、LOO-CV に内在する楽観的バイアスを回避できるか？
RQ5繰り返しのフルモデル再適合を伴わずに、ベイジアン時間系列モデルに効率的に適用可能か？

主な発見

提案された PSIS-LFO-CV 手法は、正確な LFO-CV に近い予測性能推定を達成し、計算コストを著しく削減している。
一般化されたPareto分布の形状母数を用いた診断により、近似が信頼できない可能性があるケースを特定する信頼性の高い診断が可能である。
一度のフルモデル適合のみを必要とするため、繰り返しの再適合を回避でき、大規模な時間系列に対してもスケーラブルである。
時系列の自己相関を適切に扱うことで、LOO-CV が抱える将来情報漏洩の問題を回避している。
複雑なベイジアン時間系列モデルに対しても、正確なモデル比較・選択が可能であり、将来の予測タスクに適した性能を発揮する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。