Skip to main content
QUICK REVIEW

[論文レビュー] Bayesian Model for Multiple Change-points Detection in Multivariate Time Series

Flore Harlé, Florent Chatelain|arXiv (Cornell University)|Jul 11, 2014
Statistical Methods and Inference参考文献 63被引用数 23
ひとこと要約

本稿では、p値に対して頑健なノンパラメトリックなウィルコxon順位和検定を用い、マルチバリアテッド時系列における複数の変化点を検出するベイジアンモデルを提案する。ギブスサンプリングを用いた後方確率的推論を組み合わせ、外れ値を含む非ガウス分布データにおいて、融合ラッソやベルヌーイ・ガウスモデルを凌駕する性能を発揮する。同時に、同時変化点を仮定せず、ガウス分布を仮定しない状況でも、時系列間の共通変化点確率を学習可能である。

ABSTRACT

This paper addresses the issue of detecting change-points in multivariate time series. The proposed approach differs from existing counterparts by making only weak assumptions on both the change-points structure across series, and the statistical signal distributions. Specifically change-points are not assumed to occur at simultaneous time instants across series, and no specific distribution is assumed on the individual signals. It relies on the combination of a local robust statistical test acting on individual time segments, with a global Bayesian framework able to optimize configurations from multiple local statistics (from segments of a unique time series or multiple time series). Using an extensive experimental set-up, our algorithm is shown to perform well on Gaussian data, with the same results in term of recall and precision as classical approaches, such as the fused lasso and the Bernoulli Gaussian model. Furthermore, it outperforms the reference models in the case of non normal data with outliers. The control of the False Discovery Rate by an acceptance level is confirmed. In the case of multivariate data, the probabilities that simultaneous change-points are shared by some specific time series are learned. We finally illustrate our algorithm with real datasets from energy monitoring and genomic. Segmentations are compared to state-of-the-art approaches based on fused lasso and group fused lasso.

研究の動機と目的

  • 最小限の分布的仮定のもとで、マルチバリアテッド時系列における複数の変化点を検出する課題に対処すること。
  • すべての時系列で同時に変化点が発生する必要がなかったり、信号に特定のパラメトリック分布を仮定する必要がない方法の開発。
  • 変化点の共有確率を推定することで、時系列間の潜在的な依存構造を学習すること。
  • 特に複雑なマルチバリアテッド設定において、誤発見率(FDR)をユーザー定義の許容水準αによって制御すること。
  • 外れ値や非正規分布データが存在する状況において、古典的手法(融合ラッソやベルヌーイ・ガウスモデル)の代替として頑健な手法を提供すること。

提案手法

  • 局所的時系列セグメントにおけるp値を計算するためにウィルコxon順位和検定を用い、ノンパラメトリックで外れ値に頑健な変化点検出を実現する。
  • 帰無仮説下での代替仮説におけるベータ分布を用いて、p値を合成された周辺尤度に変換し、局所的検定統計量の不確実性をモデル化する。
  • ベルヌーイ指標を用いたベイジアン枠組みを採用し、時系列全体における変化点の存在確率を確率論的にモデル化する。
  • ギブスサンプリングを用いて、変化点の最大後方確率(MAP)構成を推定し、複数の時系列にわたる統合的推論を可能にする。
  • 共通変化点確率に対する事前分布を組み込み、モデルがどの時系列がイベントを共有する可能性があるかを学習できるようにする。
  • 誤発見率(FDR)を制御するための許容水準αを用い、単変量ケースでは形式的に定式化され、マルチバリアテッド設定においては実証的に検証されている。

実験結果

リサーチクエスチョン

  • RQ1ノンパラメトリックで頑健な統計的検定をベイジアン推論と効果的に組み合わせることで、マルチバリアテッド時系列における複数の変化点を検出できるか?
  • RQ2完全な接続性や独立性を仮定しない状況で、時系列間の依存構造(特に共通変化点の確率)をどのように学習できるか?
  • RQ3外れ値を含む非ガウス分布データにおいて、提案手法が融合ラッソやベルヌーイ・ガウスモデルをどの程度上回るか?
  • RQ4マルチバリアテッドベイジアン変化点検出フレームワークにおいて、ユーザー定義の許容水準αを用いて誤発見率(FDR)を意味的に制御できるか?
  • RQ5複雑で多様な変化点構造を示す実世界のマルチバリアテッドデータセットにおいて、モデルの性能はいかがなものか?

主な発見

  • ガウス分布データにおいて、本手法は融合ラッソやベルヌーイ・ガウスモデルと同等の再現率と正確度を達成しており、理想状態下での頑健性を確認した。
  • 非ガウス分布データに外れ値が含まれる状況では、本手法は融合ラッソやベルヌーイ・ガウスモデルを著しく上回り、誤った変化点を検出してしまう傾向がある。
  • 誤発見率(FDR)は許容水準αによって効果的に制御されており、単変量ケースでは形式的に確立されている。
  • 本手法は、時系列間における共通変化点の確率を効果的に学習し、従来の手法では捉えきれない複雑な依存構造を明らかにした。
  • 実世界の応用において、エネルギー監視データやaCGHゲノムデータにおいて、生物学的・物理的文脈で解釈可能な意味のある変化点を検出できた。
  • 依存構造に情報のある事前分布を用いることで、計算速度の向上とセグメンテーションの精度向上が可能であるが、非常に大きな時系列集合ではスケーラビリティに限界がある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。