[論文レビュー] Learning Hawkes Processes from Short Doubly-Censored Event Sequences
本稿では、医療やソーシャルネットワークなど実世界の応用で一般的な短時間二重遮断(SDC)イベント系列からハーケス過程を学習するため、不完全なデータから長期間のトレーニング系列を生成するサンプリング・ステッチングデータ合成手法を提案する。この手法により、時間不変および時間変動型ハーケス過程の両方における学習のロバスト性が向上し、合成データおよび実世界データ(MIMIC-III患者入院データを含む)においてモデル性能が顕著に向上する。
Many real-world applications require robust algorithms to learn point processes based on a type of incomplete data --- the so-called short doubly-censored (SDC) event sequences. We study this critical problem of quantitative asynchronous event sequence analysis under the framework of Hawkes processes by leveraging the idea of data synthesis. Given SDC event sequences observed in a variety of time intervals, we propose a sampling-stitching data synthesis method --- sampling predecessors and successors for each SDC event sequence from potential candidates and stitching them together to synthesize long training sequences. The rationality and the feasibility of our method are discussed in terms of arguments based on likelihood. Experiments on both synthetic and real-world data demonstrate that the proposed data synthesis method improves learning results indeed for both time-invariant and time-varying Hawkes processes.
研究の動機と目的
- 短時間二重遮断(SDC)イベント系列からハーケス過程を学ぶ課題に対処すること。ここで観察される時間間隔は、完全な起因動態を捉えるのに不十分である。
- SDC系列からの直接学習には、過剰適合と歴史的起因パターンの損失が伴うという制限を克服すること。
- 不完全なSDCデータから長期間で現実的であるトレーニング系列を生成することで、モデルのロバスト性を高めるデータ合成フレームワークの開発。
- 年齢に伴い変化する動的疾患ネットワークのような時間変動型ハーケス過程の信頼性ある学習を可能にすること。
- 完全なイベント履歴が観測不可能な実世界の応用(例:患者の疾患進行や職業移動パターン)に対する実用的解決策を提供すること。
提案手法
- 時間的タイムスタンプと任意のイベント特徴を用いて、各SDCイベント系列に対して類似度に基づいて先行および後続系列をサンプリングする。
- 時間的および特徴ベースの近接性を捉えるカーネルベースのアプローチを用いて、系列間の類似度を測定する。
- サンプリングされた先行系列、元のSDC系列、および後続系列を組み合わせて、拡張されたイベント系列を構築する。
- 合成系列の尤度を分析することで、データ合成アプローチの合理性と実現可能性を裏付ける。
- 時間不変および時間変動型ハーケス過程の両方に対してこの手法を適用し、合成データ上で最尤推定によりパラメータを推定する。
- 比較のためのブートストラップベースのベースラインを用い、提案手法の学習性能における優位性を示す。
実験結果
リサーチクエスチョン
- RQ1短く二重遮断されたイベント系列からのデータ合成は、不完全なデータへの直接学習と比較して、ハーケス過程の学習を改善できるか?
- RQ2サンプリング・ステッチング手法は、SDC系列で観測されない起因パターンをどれほど効果的に回復できるか?
- RQ3年齢依存の疾患ネットワークのような時間変動型ハーケス過程において、提案手法は学習のロバスト性を向上させるか?
- RQ4時間的および特徴ベースの類似度を組み込むことで、合成系列の品質はどの程度向上するか?
- RQ5ブートストラップなどのベースライン手法と比較して、ログ尤度およびテストデータにおけるモデル一般化性能の観点から、本手法はどの程度優れているか?
主な発見
- 提案されたデータ合成手法は、合成データおよび実世界の設定の両方で、テストデータにおけるログ尤度を顕著に向上させ、ベースライン手法を上回る。
- MIMIC-IIIデータセットでは、特に時間変動型ダイナミクスを捉える点で、ブートストラップベースの競合手法と比較してログ尤度の向上が顕著に見られた。
- 学習された動的疾患ネットワークは生物学的に妥当なパターンを示した:ネットワークは年齢とともに密度が増し、高齢の患者では共存疾患の増加を反映している。
- 小児および思春期の患者では、疾患ネットワークは疎で、心疾患や腫瘍など先天性または全身性疾患が支配的であった。
- 中年期には、疾患ネットワークは密度が増し、強い相互起因関係が見られ、複雑で多段階の疾患進行を示した。
- 高齢者(80歳以上)では、中年期と比較してネットワークが疎になったが、これは急性の連鎖的イベントではなく、慢性で長期的な状態に起因する入院を反映している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。