Skip to main content
QUICK REVIEW

[論文レビュー] Principal Component Analysis: A Natural Approach to Data Exploration

Felipe L. Gewers, Gustavo R. Ferreira|arXiv (Cornell University)|Apr 7, 2018
Spectroscopy and Chemometric Analyses参考文献 62被引用数 105
ひとこと要約

この論文は PCA をデータ探索と次元削減の実用的で直感的なツールとして提示し、標準化の影響を論じ、さまざまな分野での PCA 応用を調査し、分散保持の実験的評価を行う。

ABSTRACT

Principal component analysis (PCA) is often used for analyzing data in the most diverse areas. In this work, we report an integrated approach to several theoretical and practical aspects of PCA. We start by providing, in an intuitive and accessible manner, the basic principles underlying PCA and its applications. Next, we present a systematic, though no exclusive, survey of some representative works illustrating the potential of PCA applications to a wide range of areas. An experimental investigation of the ability of PCA for variance explanation and dimensionality reduction is also developed, which confirms the efficacy of PCA and also shows that standardizing or not the original data can have important effects on the obtained results. Overall, we believe the several covered issues can assist researchers from the most diverse areas in using and interpreting PCA.

研究の動機と目的

  • PCA の基本と、主軸に沿って分散を最大化する回転としての幾何学的解釈を説明する。
  • 生物学、医学、神経科学、心理学、工学、その他の分野での PCA 応用を調査し、汎用性を示す。
  • 前処理の選択、特に標準化が PCA の結果と分散保持にどのように影響するかを調査する。

提案手法

  • PCA を Y = W X として、W が centered data の共分散行列の固有ベクトルを含むように定式化する。
  • 共分散行列 K = Cov(X) とその固有値/固有ベクトルを計算して W を構築する。
  • S および Sc を介した分散保持を説明し、説明分散比率 G = (Sc/S) × 100% を定義する。
  • 保持分散(例:70%)に基づく成分数 M の選択基準を論じ、次元推定の確率的・ベイズ的アプローチへの言及を含める。
  • 標準化する場合としない場合の実務的考慮、PCA 軸の性質(方向の曖昧さ、回転、最大分散のデモンストレーション)を分析する。

実験結果

リサーチクエスチョン

  • RQ1PCA はデータをどのように相関を取り戻し、主軸沿って分散を最大化するのか?
  • RQ2データを標準化するかしないかが PCA の結果と分散保持にどのような影響を与えるのか?
  • RQ3総分散を所望の量だけ保持するには、さまざまなデータセットでいくつの主成分が必要か?
  • RQ4より複雑な射影や分析を助ける前処理として、どの文脈で PCA を使用すべきか?
  • RQ5PCA の軸と荷重の実務上の限界点と解釈的側面は、さまざまな分野でどう変わるのか?

主な発見

  • PCA は元の変数を相関を取り戻し、最初の数軸に分散を集中させることで、効果的な次元削減を可能にする。
  • 標準化は PCA の結果に大きく影響を与え得る。適切でない標準化はノイズや意味のない変動を増幅する可能性がある。
  • PCA 回転の下で総分散は保持され、保持分散 Sc は G = (Sc/S) × 100% によって選択される成分数 M を決定する。
  • PCA 軸の方向は一意ではない(結果を変えずに軸の符号を反転できる)。
  • PCA をより高コストな射影の前処理として用い、データを単純化して統計的表現を改善できる。
  • 経験的な証拠は、多くの実世界データセットに対して substantial な分散保持が達成可能であることを示唆する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。