QUICK REVIEW

[論文レビュー] The use of the Higher Order Singular Value Decomposition of the 4-cumulant's tensors in features selection and outlier detection

Krzysztof Domino|arXiv (Cornell University)|Mar 29, 2018

Computational Physics and Python Applications被引用数 1

ひとこと要約

本論文では、4次積率テンソルの高次特異値分解（HOSVD）を用いた特徴選択および外れ値検出の新規手法を提案する。外れ値はスルツ分布コプルラで、通常のデータは正規分布でモデル化される。この手法は金融市場の危機時における外れ値検出において、リード＝ショウリ（RX）検出器を上回る性能を示し、GitHubにオープンソースのJulia実装が提供されている。

ABSTRACT

We use the High Order Singular Value Decomposition (HOSVD) of higher order cumulant tensors to perform features selection and outlier detection on multivariate data. In both cases, a target subset of data (outlier subset) has higher-order dependencies. In our case, those dependencies are modeled by the t-Student copula. Apart from a target subset, ordinary data are modeled by a Gaussian multivariate distribution. This scenario is a typical setting in real life data processing, where the Central Limit Theorem holds in general but breaks for unusual events (outliers). In the presented approach, we collect information about higher order dependencies utilizing the 4th cumulant's tensor. It makes the approach more general comparing with recently developed 3rd cumulant's tensor approach. If the 3rd cumulant's tensor of data is non-zero in most cases the 4th should be non-zero as well. However, the opposite is not true in many cases, consider the t-Student copula model as an example. In this paper, through experiment we show the superiority of our method over the Reed-Xiaoli (RX) Detector, that is a well-known outlier detector and can be used as a benchmark. We present the application of our method in a real life financial data analysis. We demonstrate that our method has advantage for detecting outliers being a increases of shares prices during a crisis. Our algorithms are implemented in the modern open source Julia programming language and available on the GitHub.

研究の動機と目的

多次元データにおける高次依存関係を捉えるために3次積率に基づく手法の限界を解決すること。
外れ値は特徴的な高次統計的依存関係を示すものとして、特にスルツ分布コプルラを用いてモデル化し、通常のデータは正規分布に従うようにすること。
3次テンソルよりも4次積率テンソルに含まれる豊富な情報を活用することで、外れ値検出および特徴選択の性能を向上させること。
特に急激な株価上昇を伴う市場危機時における実世界の金融データにおいて、本手法の有効性を示すこと。
再現可能性と実用的導入を可能にするために、スケーラブルでオープンソースのJulia実装を提供すること。

提案手法

多次元データの4次積率テンソルに高次特異値分解（HOSVD）を適用し、構造的パターンを抽出する。
外れ値サブセットにはスルツ分布コプルラ、通常のデータには正規分布を用いて、データ内の高次依存関係をモデル化する。
4次積率テンソルは、3次テンソルが見逃す非正規的かつ非楕円的依存関係を捉え、複雑な外れ値構造に対する感受性を高める。
特徴選択は、HOSVD分解における大きな特異値を示す成分を特定することで行い、支配的となる依存関係を特定する。
外れ値検出は、正規分布仮定下での期待される4次積率構造からの逸脱を測定することで達成される。
高性能計算を想定し、Juliaで実装したアルゴリズムをGitHubに公開し、オープンアクセスと再現可能性を確保する。

実験結果

リサーチクエスチョン

RQ14次積率テンソルは、3次テンソルに比べて多次元データの高次依存関係をより効果的に捉えられるか？
RQ24次積率テンソルのHOSVDは、リード＝ショウリ（RX）検出器に比べて外れ値検出性能を向上させるか？
RQ3本手法は、特に株価の急上昇を伴う市場危機時における金融外れ値をどれほど効果的に検出できるか？
RQ4スルツ分布コプルラモデルは、外れ値サブセットにおける高次依存関係の適切な表現であるか？
RQ5Juliaのような現代のオープンソースツールを用いて、本手法を効果的に実装・スケーリングできるか？

主な発見

提案手法は、特に非正規的・非楕円的依存関係を示す金融データにおいて、リード＝ショウリ（RX）検出器を上回る外れ値検出性能を示した。
4次積率テンソルは、3次テンソルが見逃す高次依存関係を捉えることができ、特にスルツ分布コプルラモデル下で顕著である。
本手法は、市場危機時における株価の急上昇を伴う外れ値イベントを効果的に同定でき、2次手法ではしばしば見逃される。
4次積率テンソルのHOSVDにより、顕著な構造的依存関係を持つ成分を分離することで、より頑健な特徴選択が可能になった。
Juliaにおけるオープンソース実装により、再現性が確保され、実世界のデータ分析パイプラインへの統合が容易になった。
高次積率は、低次代替手法に比べ、多次元外れ値検出においてより一般的かつ情報豊富な表現を提供することが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。