Skip to main content
QUICK REVIEW

[論文レビュー] Extracting information from the signature of a financial data stream

Lajos Gergely Gyurk 'o, Terry Lyons|arXiv (Cornell University)|Jul 27, 2013
Complex Systems and Time Series Analysis被引用数 21
ひとこと要約

本稿では、粗いパス理論から導かれる金融データストリームのシグネチャを用いて、高頻度市場行動の分類のための非パrametric特徴抽出手法を提案する。低次元のシグネチャ係数を計算することで、異なる取引実行アルゴリズムに起因する市場インパクトの分類や異常行動の検出が可能となり、買い注文では最高で89.9%のOut-of-sample分類精度を達成し、重要な指標のAUCスコアは0.93以上を記録した。

ABSTRACT

Market events such as order placement and order cancellation are examples of the complex and substantial flow of data that surrounds a modern financial engineer. New mathematical techniques, developed to describe the interactions of complex oscillatory systems (known as the theory of rough paths) provides new tools for analysing and describing these data streams and extracting the vital information. In this paper we illustrate how a very small number of coefficients obtained from the signature of financial data can be sufficient to classify this data for subtle underlying features and make useful predictions. This paper presents financial examples in which we learn from data and then proceed to classify fresh streams. The classification is based on features of streams that are specified through the coordinates of the signature of the path. At a mathematical level the signature is a faithful transform of a multidimensional time series. (Ben Hambly and Terry Lyons \cite{uniqueSig}), Hao Ni and Terry Lyons \cite{NiLyons} introduced the possibility of its use to understand financial data and pointed to the potential this approach has for machine learning and prediction. We evaluate and refine these theoretical suggestions against practical examples of interest and present a few motivating experiments which demonstrate information the signature can easily capture in a non-parametric way avoiding traditional statistical modelling of the data. In the first experiment we identify atypical market behaviour across standard 30-minute time buckets sampled from the WTI crude oil future market (NYMEX). The second and third experiments aim to characterise the market "impact" of and distinguish between parent orders generated by two different trade execution algorithms on the FTSE 100 Index futures market listed on NYSE Liffe.

研究の動機と目的

  • . 高頻度金融データストリームから意味のある特徴を抽出する非パrametric手法を開発すること。
  • . 伝統的な統計モデリングを避けるために、データパスのシグネチャに基づいて市場行動を分類すること。
  • . 異なる取引実行アルゴリズムに起因する市場インパクトの微細な差を、シグネチャがどの程度検出できるかを評価すること。
  • . 異常検出やアルゴリズム分類といった実世界の金融応用分野におけるシグネチャの有用性を示すこと。
  • . 実市場データ上でのシグネチャに基づく機械学習のロバスト性と予測能力を検証すること。

提案手法

  • . 多変量金融時系列に数学的シグネチャ変換を適用し、価格および取引量のパスの反復積分を捉える。
  • . 機械学習のための低次元特徴として、切り詰めたシグネチャ係数(最大3〜4次まで)を用いる。
  • . 分類に最も関連するシグネチャ項を特定するために、LASSO正則化を施した線形回帰を採用する。
  • . 時間の正規化により、時間スケーリングに対して不変となるようにし、再パrameter化におけるシグネチャ不変性を維持する。
  • . 75%のデータで分類器を学習し、残りの25%をOut-of-sampleテストに使用し、Kolmogorov-Smirnov距離、AUC、分類率を指標とする。
  • . ラベルのシャッフルや訓練データサイズの変更によるアブレーションおよびロバストネスの検証を行い、統計的有意性を検証する。

実験結果

リサーチクエスチョン

  • RQ1. 金融データストリームのシグネチャは、標準的な統計指標では検出できない微細な市場ダイナミクスを効果的に捉えられるか?
  • RQ2. シグネチャベースの特徴は、2つの異なる取引実行アルゴリズムに起因する市場インパクトの差をどの程度正確に分類できるか?
  • RQ3. 限られたデータで学習した場合、シグネチャ手法はどの程度の予測精度を維持できるか?また、訓練データサイズの増加に伴い性能はどのように変化するか?
  • RQ4. パラメトリックな仮定を事前に設けずに、標準化された時間間隔内で特異な市場行動をシグネチャ手法が検出できるか?
  • RQ5. どの特定のシグネチャ項(多重インデックス)がアルゴリズム行動の予測に最も寄与しているか?また、それらは市場的に何を意味するか?

主な発見

  • . シグネチャベースの手法は、買い注文のOut-of-sample分類精度が87.9%、売り注文が70.9%に達し、買い注文の学習セットではAUCスコアが0.94以上であった。
  • . ラーニングセットにおけるKolmogorov-Smirnov距離は、買い注文で0.763に達し、ラベルをランダム化した際の基準値0.263を著しく上回った。
  • . ビンゴ注文分類に適した56個の関連シグネチャ項が同定され、上位の係数はリード・ラグおよび累積取引量ダイナミクスに関連していた。
  • . 200件未満のストリームで訓練した場合、性能が低下したため、信頼できる推定のための閾値が存在することが示された。
  • . 上位15個のシグネチャ項には、(1,6,4,1) や (1,1,6,4) といった多重インデックスが含まれており、係数は取引量と価格タイミングパターンへの感受性を示していた。
  • . 手法はロバストであった:ノイズが多く実際の市場データであったとしても、シグネチャは高い統計的信頼性でアルゴリズムの差を捉えていた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。