[논문 리뷰] Estimating Number of Factors by Adjusted Eigenvalues Thresholding
이 논문은 고차원 인자 모델에서 공통 인자의 수를 추정하기 위한 새로운 방법인 조정된 상관계수 임계값 설정(Adjusted Correlation Thresholding, ACT)을 제안한다. 이 방법은 표본 상관계수 행렬의 고유값을 활용하여, 난이도 이론을 적용해 상위 고유값의 편향과 추정 오차를 보정한다. 미묘한 조건 하에서 인구 상관계수 행렬에서 1을 초과하는 고유값의 수가 공통 인자의 수와 정확히 일치함을 보여주며, 공분산 기반 방법에 비해 더 높은 정확도를 확보한다.
Determining the number of common factors is an important and practical topic in high dimensional factor models. The existing literatures are mainly based on the eigenvalues of the covariance matrix. Due to the incomparability of the eigenvalues of the covariance matrix caused by heterogeneous scales of observed variables, it is very difficult to give an accurate relationship between these eigenvalues and the number of common factors. To overcome this limitation, we appeal to the correlation matrix and show surprisingly that the number of eigenvalues greater than $1$ of population correlation matrix is the same as the number of common factors under some mild conditions. To utilize such a relationship, we study the random matrix theory based on the sample correlation matrix in order to correct the biases in estimating the top eigenvalues and to take into account of estimation errors in eigenvalue estimation. This leads us to propose adjusted correlation thresholding (ACT) for determining the number of common factors in high dimensional factor models, taking into account the sampling variabilities and biases of top sample eigenvalues. We also establish the optimality of the proposed methods in terms of minimal signal strength and optimal threshold. Simulation studies lend further support to our proposed method and show that our estimator outperforms other competing methods in most of our testing cases.
연구 동기 및 목표
- 관측 변수의 이질적인 척도로 인해 공분산 기반 인자 추정 방법이 실패하는 데 기인한 한계를 해결하기 위해.
- 인구 상관계수 행렬에서 1을 초과하는 고유값의 수와 진짜 공통 인자의 수 사이의 이론적 연관성을 확립하기 위해.
- 난이도 이론을 활용해 표본 상관계수 행렬의 상위 고유값에서 발생하는 편향과 추정 오차를 보정하는 방법을 개발하기 위해.
- 공통 인자의 수를 결정하기 위한 새로운, 더 신뢰할 수 있는 추정기인 조정된 상관계수 임계값 설정(Adjusted Correlation Thresholding, ACT)을 제안하기 위해.
제안 방법
- 모수적 상관계수 행렬에 기반하여, 미묘한 정규성 조건 하에서 1을 초과하는 고유값의 수가 공통 인자의 수와 일치함을 보장한다.
- 표본 상관계수 행렬에 난이도 이론을 적용하여 상위 고유값 추정의 편향을 보정한다.
- 표본 변동성과 추정 오차를 고려한 조정된 고유값 기반의 임계값 설정 규칙을 사용한다.
- 척도 불변성을 확보하기 위해 표본 공분산 행렬 대신 표본 상관계수 행렬을 사용한다.
- 차원과 표본 크기가 모두 증가하는 고차원 설정에서 상위 고유값의 점근적 분포를 유도한다.
- 최종 추정기인 ACT는 조정된 고유값 중 임계값을 초과하는 수를 공통 인자의 수로 선택한다.
실험 결과
연구 질문
- RQ1미묘한 조건 하에서 인구 상관계수 행렬에서 1을 초과하는 고유값의 수가 공통 인자의 수와 정확히 일치하는가?
- RQ2난이도 이론을 활용해 상관계수 행렬의 상위 표본 고유값에서 발생하는 편향과 추정 오차를 보정할 수 있는가?
- RQ3제안된 ACT 방법은 공분산 기반 기존 방법에 비해 정확도와 일관성 측면에서 어떻게 비교되는가?
- RQ4고차원 데이터에서 관측 변수의 이질적인 척도에 대해 제안된 방법이 강건한가?
- RQ5정적 및 동적 인자 모델 모두에서 진짜 인자의 수를 신뢰성 있게 탐지할 수 있는가?
주요 결과
- 미묘한 정규성 조건 하에서 인구 상관계수 행렬에서 1을 초과하는 고유값의 수는 정확히 공통 인자의 수와 일치한다.
- 모의 실험에서 ON, ED, ER, GR 등의 기존 방법에 비해 제안된 ACT 방법이 유의미하게 뛰어난 성능을 보이며, 특히 변수 척도가 이질적인 상황에서 두각을 나타낸다.
- Fama-French 및 모멘타ム 인자에 대한 실증 적용에서, 금융위기 전후로 ACT는 항상 세 개의 인자를 정확히 식별하였으며, 주성분 공간과 잘 일치한다.
- 세 개의 인자를 선택할 때 총 변동성의 85.90%를 설명하는 높은 R² 값을 달성하였으며, 인자 공간과 진짜 인자 공간 간의 거리는 매우 작다 (위기 후 ‖PA−PB‖₂ = 0.406).
- 투영 행렬 노름을 통해 Fama-French 인자와 주성분 인자가 생성하는 공간이 매우 유사함을 확인하였으며, 위기 후 프로베니우스 노름 차이는 0.708이다.
- 모멘타ム 인자는 주성분에 의해 잘 설명되지 않아, ACT가 인자 구조에서 그 인자의 지배적 성질이 아님을 정확히 식별하고 있음을 시사한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.