Skip to main content
QUICK REVIEW

[论文解读] New Interpretation of Principal Components Analysis

Zenon Gniazdowski|arXiv (Cornell University)|Nov 10, 2017
Scientific Research and Discoveries参考文献 7被引用 27
一句话总结

本文通过将相关系数和决定系数重新解释为虚拟数据空间中的向量投影,对主成分分析(PCA)提出了几何重诠释。它提出了一种基于重构精度的新主成分选择准则,并引入了一种新颖的主变量垂直聚类方法,基于其与主成分的相似性,通过张量数据各向异性和虚拟数据表示,丰富了经典PCA。

ABSTRACT

A new look on the principal component analysis has been presented. Firstly, a geometric interpretation of determination coefficient was shown. In turn, the ability to represent the analyzed data and their interdependencies in the form of easy-to-understand basic geometric structures was shown. As a result of the analysis of these structures it was proposed to enrich the classical PCA. In particular, it was proposed a new criterion for the selection of important principal components and a new algorithm for clustering primary variables by their level of similarity to the principal components. Virtual and real data spaces, as well as tensor operations on data, have also been identified.The anisotropy of the data was identified too.

研究动机与目标

  • 在虚拟数据空间中,利用向量分解和勾股定理,为PCA提供一种几何解释。
  • 通过引入基于重构的新准则,解决经典PCA在选择主成分方面的局限性。
  • 提出一种基于主成分相似性的新方法,对主变量进行聚类,称为垂直聚类。
  • 识别PCA中的张量运算,并引入数据各向异性作为多变量数据结构特性的概念。
  • 区分真实数据(测量变量)与虚拟数据(在旋转空间中变量和成分的几何表示)。

提出的方法

  • 将标准化的主变量分解为沿主成分轴的正交分量,其中相关系数表示向量投影。
  • 应用广义勾股定理,将每个主变量的方差分解为由每个主成分解释的分量。
  • 提出一种基于每个主变量可接受最低重构水平的新主成分选择准则。
  • 通过使用相关系数作为相似性度量,计算主变量与主成分的相似性,实现主变量的垂直聚类。
  • 将虚拟数据定义为在旋转坐标系(特征向量基)中标准化变量和成分的几何表示,与实际测量数据相区别。
  • 将PCA识别为张量数据挖掘的一个子集,数据各向异性源于各成分间方差的方向依赖性。

实验结果

研究问题

  • RQ1在PCA背景下,决定系数如何进行几何解释?它揭示了变量之间相似性的何种信息?
  • RQ2主变量的方差能否有意义地分解为沿主成分轴的正交分量?这对解释意味着什么?
  • RQ3虚拟数据空间在增强PCA结果可解释性方面起到什么作用?
  • RQ4如何量化主变量与主成分之间的相似性,以实现变量的聚类(垂直聚类)而非点的聚类?
  • RQ5PCA以何种方式揭示数据各向异性?这与张量运算和数据结构有何关联?

主要发现

  • 两个相关变量之间的决定系数对应于其在虚拟数据空间中向量表示之间夹角的余弦值,从而量化了它们的相似性。
  • 每个标准化的主变量可沿主成分轴分解为正交分量,其平方相关系数表示这些分量的方差。
  • 所提出的基于重构的主成分选择准则可确保每个主变量以足够高的精度被表示,从而提升结果的可解释性和实用性。
  • 基于主成分相似性的主变量垂直聚类是可行的,且与传统的点水平聚类有本质区别。
  • PCA在形式上与张量数据挖掘相关联,坐标系的旋转和方差分布揭示了数据各向异性作为数据结构的内在属性。
  • 虚拟数据表示——即在特征向量基中的几何构造——为解释PCA结果提供了新的视角,与原始测量数据相分离。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。