QUICK REVIEW

[논문 리뷰] New Interpretation of Principal Components Analysis

Zenon Gniazdowski|arXiv (Cornell University)|2017. 11. 10.

Scientific Research and Discoveries참고 문헌 7인용 수 27

한 줄 요약

이 논문은 상관계수와 결정계수를 가상의 데이터 공간에서의 벡터 투영으로 재해석함으로써 주성분 분석(PCA)의 기하학적 재해석을 제안한다. 복원 정확도 기반의 새로운 주성분 선택 기준과 성분에 대한 유사도를 기반으로 한 주요 변수의 새로운 수직 클러스터링 방법을 제안하여, 텐서 기반 데이터 이방성과 가상의 데이터 표현을 통해 고전적 PCA를 풍부하게 한다.

ABSTRACT

A new look on the principal component analysis has been presented. Firstly, a geometric interpretation of determination coefficient was shown. In turn, the ability to represent the analyzed data and their interdependencies in the form of easy-to-understand basic geometric structures was shown. As a result of the analysis of these structures it was proposed to enrich the classical PCA. In particular, it was proposed a new criterion for the selection of important principal components and a new algorithm for clustering primary variables by their level of similarity to the principal components. Virtual and real data spaces, as well as tensor operations on data, have also been identified.The anisotropy of the data was identified too.

연구 동기 및 목표

가상의 데이터 공간에서 벡터 분해와 피타고라스 정리를 사용하여 PCA에 기하학적 해석을 제공한다.
기존 PCA의 주성분 선택 한계를 해결하기 위해 복원 기반의 새로운 기준을 도입한다.
주성분에 대한 유사도를 기반으로 한 주요 변수의 새로운 클러스터링 방법(수직 클러스터링)을 제안한다.
PCA 내부의 텐서 연산을 식별하고, 다변량 데이터의 구조적 특성으로서 데이터 이방성을 도입한다.
실제 데이터(측정된 변수)와 가상의 데이터(회전된 공간에서 변수와 성분의 기하학적 표현)를 구분한다.

제안 방법

표준화된 주요 변수를 주성분 축을 따라 수직 성분으로 분해하고, 상관계수를 벡터 투영으로 간주한다.
일반화된 피타고라스 정리를 적용하여 각 주요 변수의 분산을 각 주성분이 설명하는 성분으로 분해한다.
각 주요 변수에 대해 최소 수용 가능한 복원 수준을 기반으로 한 주성분 선택을 위한 새로운 기준을 제안한다.
상관계수를 유사도 측정치로 사용하여 주성분에 대한 주요 변수의 유사도를 계산함으로써 주요 변수의 수직 클러스터링을 도입한다.
가상의 데이터를 회전된 좌표계(고유벡터 기저)에서 표준화된 변수와 성분의 기하학적 표현으로 정의하며, 실측 데이터와 구별한다.
PCA가 텐서 데이터 마이닝의 하위 집합임을 식별하고, 성분을 따라 분산이 방향에 따라 달라지는 특성으로부터 데이터 이방성이 구조적 특성으로 나타남을 밝힌다.

실험 결과

연구 질문

RQ1PCA의 맥락에서 결정계수를 어떻게 기하학적으로 해석할 수 있으며, 이는 변수 간 유사성에 대해 무엇을 드러내는가?
RQ2주요 변수의 분산을 주성분 축을 따라 수직 성분으로 의미 있게 분해할 수 있는가? 이는 해석에 어떤 함의를 지닌다?
RQ3가상의 데이터 공간은 PCA 결과의 해석 가능성 향상에 어떤 역할을 하는가?
RQ4주요 변수와 주성분 간의 유사도는 어떻게 정량화할 수 있으며, 이는 점의 수평 클러스터링이 아닌 변수의 수직 클러스터링을 가능하게 하는가?
RQ5PCA는 어떻게 데이터 이방성을 드러내며, 이는 텐서 연산과 데이터 구조와 어떻게 관련이 있는가?

주요 결과

두 상관관계가 있는 변수 사이의 결정계수는 가상의 데이터 공간에서 해당 변수의 벡터 표현 간의 각도의余弦값과 일치하며, 이는 변수 간 유사도를 정량화한다.
각 표준화된 주요 변수는 주성분 축을 따라 수직 성분으로 분해될 수 있으며, 제곱된 상관계수는 이러한 성분의 분산을 나타낸다.
제안된 복원 기반의 주성분 선택 기준은 각 주요 변수가 충분한 정확도로 표현됨을 보장하여 해석 가능성과 활용도를 향상시킨다.
주성분에 대한 유사도를 기반으로 한 주요 변수의 수직 클러스터링은 실현 가능하며, 기존의 데이터 포인트 수평 클러스터링과는 뚜렷이 구별된다.
PCA는 공식적으로 텐서 데이터 마이닝과 연결되며, 좌표계의 회전과 분산 분포를 통해 데이터 이방성이 구조적 특성으로 드러남을 보여준다.
고유벡터 기저에서의 기하학적 구조인 가상의 데이터 표현은 원시 측정 데이터와 별개로 PCA 결과를 해석하는 데 새로운 시각을 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.