Skip to main content
QUICK REVIEW

[论文解读] The use of the Higher Order Singular Value Decomposition of the 4-cumulant's tensors in features selection and outlier detection

Krzysztof Domino|arXiv (Cornell University)|Mar 29, 2018
Computational Physics and Python Applications被引用 1
一句话总结

本文提出了一种基于四阶累积量张量的高阶奇异值分解(HOSVD)的新方法,用于特征选择与异常检测,通过t-Student Copula建模异常值,普通数据则采用正态分布。该方法在金融危机期间检测金融市场异常值方面优于Reed-Xiaoli(RX)检测器,相关开源Julia实现已发布于GitHub。

ABSTRACT

We use the High Order Singular Value Decomposition (HOSVD) of higher order cumulant tensors to perform features selection and outlier detection on multivariate data. In both cases, a target subset of data (outlier subset) has higher-order dependencies. In our case, those dependencies are modeled by the t-Student copula. Apart from a target subset, ordinary data are modeled by a Gaussian multivariate distribution. This scenario is a typical setting in real life data processing, where the Central Limit Theorem holds in general but breaks for unusual events (outliers). In the presented approach, we collect information about higher order dependencies utilizing the 4th cumulant's tensor. It makes the approach more general comparing with recently developed 3rd cumulant's tensor approach. If the 3rd cumulant's tensor of data is non-zero in most cases the 4th should be non-zero as well. However, the opposite is not true in many cases, consider the t-Student copula model as an example. In this paper, through experiment we show the superiority of our method over the Reed-Xiaoli (RX) Detector, that is a well-known outlier detector and can be used as a benchmark. We present the application of our method in a real life financial data analysis. We demonstrate that our method has advantage for detecting outliers being a increases of shares prices during a crisis. Our algorithms are implemented in the modern open source Julia programming language and available on the GitHub.

研究动机与目标

  • 解决基于三阶累积量的方法在捕捉多元数据高阶依赖关系方面的局限性。
  • 将异常值建模为具有独特高阶统计依赖关系,具体采用t-Student Copula,而正常数据则服从正态分布。
  • 通过利用四阶累积量张量相比三阶张量所蕴含的更丰富信息,提升异常检测与特征选择的性能。
  • 在真实金融数据中,特别是在出现剧烈价格上涨的市场危机期间,证明该方法的有效性。
  • 提供可扩展的开源Julia实现,以支持可复现研究与实际部署。

提出的方法

  • 该方法对多元数据的四阶累积量张量应用高阶奇异值分解(HOSVD),以提取结构模式。
  • 通过t-Student Copula对异常值子集建模高阶依赖关系,而正常数据则采用正态分布。
  • 四阶累积量张量能够捕捉三阶张量可能遗漏的非高斯、非椭球依赖关系,从而增强对复杂异常结构的敏感性。
  • 通过识别HOSVD分解中具有高奇异值的分量实现特征选择,表明其代表主导依赖关系。
  • 通过测量在正态假设下预期的四阶累积量结构的偏离程度实现异常检测。
  • 算法采用Julia实现,支持高性能计算,并在GitHub上开源,以确保可复现性与可扩展性。

实验结果

研究问题

  • RQ1四阶累积量张量是否能比三阶张量更有效地捕捉多元数据中的高阶依赖关系?
  • RQ2与Reed-Xiaoli(RX)检测器相比,四阶累积量张量的HOSVD是否能提升异常检测性能?
  • RQ3该方法在市场危机期间对金融异常值的检测效果如何,特别是对股价急剧上涨的情况?
  • RQ4t-Student Copula模型是否能适切地表征异常值子集中高阶依赖关系?
  • RQ5该方法能否通过现代开源工具(如Julia)实现高效、可扩展的部署?

主要发现

  • 所提方法在检测异常值方面优于Reed-Xiaoli(RX)检测器,尤其在具有复杂非高斯依赖关系的金融数据中表现更优。
  • 四阶累积量张量能够捕捉三阶张量可能遗漏的高阶依赖关系,尤其在t-Student Copula模型下表现显著。
  • 该方法成功识别出市场危机期间因股价突然上涨而产生的异常事件,而这些事件常被二阶方法所忽略。
  • 四阶累积量张量的HOSVD能够通过隔离具有显著结构依赖关系的分量,实现更稳健的特征选择。
  • Julia中的开源实现确保了可复现性,并促进了在真实世界数据分析流程中的集成。
  • 该方法表明,高阶累积量在多元异常检测中,相较于低阶替代方案,能提供更通用且更具信息量的表示。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。