Skip to main content
QUICK REVIEW

[論文レビュー] Self-attention with Functional Time Representation Learning

Da Xu, Chuanwei Ruan|arXiv (Cornell University)|Nov 28, 2019
Advanced Graph Neural Networks被引用数 36
ひとこと要約

本論文は、連続時間イベント系列における自己注意へ連続時間差を組み込むための機能的時間埋め込みを提案し、Bochner および Mercer の理論的基盤を用いて、実世界データセットで予測性能の向上を示します。

ABSTRACT

Sequential modelling with self-attention has achieved cutting edge performances in natural language processing. With advantages in model flexibility, computation complexity and interpretability, self-attention is gradually becoming a key component in event sequence models. However, like most other sequence models, self-attention does not account for the time span between events and thus captures sequential signals rather than temporal patterns. Without relying on recurrent network structures, self-attention recognizes event orderings via positional encoding. To bridge the gap between modelling time-independent and time-dependent event sequence, we introduce a functional feature map that embeds time span into high-dimensional spaces. By constructing the associated translation-invariant time kernel function, we reveal the functional forms of the feature map under classic functional function analysis results, namely Bochner's Theorem and Mercer's Theorem. We propose several models to learn the functional time representation and the interactions with event representation. These methods are evaluated on real-world datasets under various continuous-time event sequence prediction tasks. The experiments reveal that the proposed methods compare favorably to baseline models while also capturing useful time-event interactions.

研究の動機と目的

  • 離散的な位置エンコーディングを超えて、自己注意における連続的な時間パターンを捉える必要性を動機づける。
  • 翻訳不変な時間カーネルと、時間スパンをベクトル空間へ埋め込む関数的特徴写像を提案する。
  • Bochner-based および Mercer-based の時間埋め込みを、学習可能な時間とイベント表現の相互作用とともに導出・比較する。
  • 実データセット上で経験的に検証し、連続時間イベント系列予測の改善を示す。

提案手法

  • 時間埋め込みを、特徴写像 Φ を用いた translation-invariant kernel K(t1,t2)=ψ(t1−t2) として定式化する。
  • Bochner’s Theorem(ランダムフーリエ特徴)および Mercer’s Theorem( Fourier basis/periodic kernels)を用いて Φ の基礎を築き、有限次元の埋め込みを得る。
  • Φ を学習するために、再パラメータ化、inverse CDF変換、または非パラメトリックオプションを用いた実用的な Bochner time encoding のバリアントを提供する。
  • 複数の帯域をカバーするよう、学習可能な係数と一連の周波数を持つ切り捨てられた Fourier basis として Mercer time embedding を提案する。
  • 自己注意において、Z (event) と Φ(t) (time) を連結してQ/K/Vの射影へ入力することで、時間埋め込みとイベント埋め込みを統合する。
  • 線形または非線形(MLP)変換を用いて時間-イベント相互作用をモデル化し、複雑な依存関係を捉えるために任意で残差ブロックを使用する。)

実験結果

リサーチクエスチョン

  • RQ1 principled, kernel-based time representations を介して、連続時間差分を自己注意に効果的に埋め込むことは可能か。
  • RQ2どの機能形(Bochner vs. Mercer)が、深層モデルと相性の良い堅牢で学習可能な時間埋め込みを提供するか?
  • RQ3時間認識埋め込みは、標準の位置エンコーディングおよび時間付加ベースのベースラインよりも連続時間イベント系列予測を改善するか?

主な発見

  • Mercer および Bochner-based 時間埋め込みは、実世界データセット全体でベースラインに対して一貫して性能を向上させる。
  • Mercer time embedding は Fourier basis を用いた際に全体的に最良の性能を示すことが多く、時間-イベント相互作用のモデリングも効果的。
  • Bochner time embeddings は非パラメトリック inverse CDF 変換を用いた場合にも高い結果を示し、時にはベースラインを上回る。
  • Bochner 法は柔軟な分布学習(例: Inv CDF, MAF, NVP)により利点を得る一方、Mercer は切り捨てられた Fourier 展開による安定性を提供する。
  • 埋め込みで捉えられる時間-イベント相互作用は、アテンション重みの解釈可能な時間的パターンを明らかにする(定性的分析)。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。