Skip to main content
QUICK REVIEW

[論文レビュー] A new method for augmenting short time series, with application to pain events in sickle cell disease

Kumar Utkarsh, Nirmish Shah|arXiv (Cornell University)|Jan 8, 2026
Hemoglobinopathies and Related Disorders被引用数 0
ひとこと要約

データ拡張フレームワークは、統計的に類似する疎な時系列を統合して Hawkes vs Poisson モデルの識別とパラメータ推定を改善し、鎌状赤血球病の痛みイベントデータに適用します。

ABSTRACT

Researchers across different fields, including but not limited to ecology, biology, and healthcare, often face the challenge of sparse data. Such sparsity can lead to uncertainties, estimation difficulties, and potential biases in modeling. Here we introduce a novel data augmentation method that combines multiple sparse time series datasets when they share similar statistical properties, thereby improving parameter estimation and model selection reliability. We demonstrate the effectiveness of this approach through validation studies comparing Hawkes and Poisson processes, followed by application to subjective pain dynamics in patients with sickle cell disease (SCD), a condition affecting millions worldwide, particularly those of African, Mediterranean, Middle Eastern, and Indian descent.

研究の動機と目的

  • 疎な時系列データが信頼性の高いモデル適合と選択を妨げる課題に対処する。
  • 統計的に類似するデータセットを識別し、それらを pooling して拡張尤度を形成する方法を開発する。
  • Hawkes と Poisson プロセスを区別するシミュレーションでアプローチを検証する。
  • 実世界の鎌状赤血球病の痛みイベントデータに方法を適用し、時間的ダイナミクスを明らかにする。

提案手法

  • 指数記憶カーネルを持つ自己励起 Hawkes 過程をモデル化し、観測されていない過去イベントの補償項を含む(式 2)。
  • 最大尤度と赤池情報量規準(AIC)を用いて Hawkes モデルと Poisson モデルを比較し、モデル選択を行う。
  • interarrival 時間に対して2標本 Kolmogorov-Smirnov(KS)検定を用いて分布が類似するデータセットを特定する。
  • 統計的に類似するデータセット間で個別尤度を掛け合わせた collectively likelihood を定義する(式 5)。
  • 疎なデータセットへ拡張ワークフローを適用し、その後パラメータを再推定し、モデル支持を再評価する。
Figure 1: Visual guide to shifted Hawkes process parameters and intensity dynamics. Characterization of the parameters introduced in Eq. ( 2 ) (see also Table 1 ). The peaks represent event arrivals in real-time. The shaded area represents the history not captured in the observed data. In this examp
Figure 1: Visual guide to shifted Hawkes process parameters and intensity dynamics. Characterization of the parameters introduced in Eq. ( 2 ) (see also Table 1 ). The peaks represent event arrivals in real-time. The shaded area represents the history not captured in the observed data. In this examp

実験結果

リサーチクエスチョン

  • RQ1疎な時系列データを pooling して Hawkes と Poisson プロセス間のモデル識別を改善できるか。
  • RQ2提案する拡張手法は sparsity の下で Hawkes モデルのパラメータ(lambda_0, alpha, delta)の推定を改善するか。
  • RQ3拡張が実世界の SCD 痛みイベントデータにおけるモデル選択へどのような影響を与えるか(単一系列分析と比較して)。
  • RQ4KS ベースの類似性グルーピングが集合的尤度推論を信頼性高く行う条件と限界は何か。

主な発見

  • 拡張データセットはモデル選択を不確定または Poisson 派の状況から Hawkes 派へとシフトさせ、多くのケースで信頼度を 95% 超に高める。
  • 拡張データからのパラメータ推定は、等長の連続データに匹敵する Hawkes パラメータを回復し、 sparsity 下でのロバスト性を向上させる。
  • シミュレーションでは、拡張により Delta AIC における結果が Poisson および Hawkes の両方で不確定領域の外へ移動する。
  • 39 名の SCD 患者に適用したところ、拡張適合は 36/39 ケースで Hawkes の優位を示し、単一系列適合は 28/39。
  • 実データで観察された記憶時間スケール delta^{-1} は 30 秒から 6 分の範囲で、痛みイベント後のリスク期間の長さを示唆する。
Figure 2: Minimum dataset size required for reliable Hawkes vs. Poisson model discrimination. Number of data points needed to distinguish Hawkes model from Poisson. The black dashed line is for basic preference ( $\mathcal{L}=1$ ), whereas the green dashed line is for 95% confidence ( $\mathcal{L}=0
Figure 2: Minimum dataset size required for reliable Hawkes vs. Poisson model discrimination. Number of data points needed to distinguish Hawkes model from Poisson. The black dashed line is for basic preference ( $\mathcal{L}=1$ ), whereas the green dashed line is for 95% confidence ( $\mathcal{L}=0

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。