QUICK REVIEW

[논문 리뷰] Optimal Bayes Classifiers for Functional Data and Density Ratios

Xiongtao Dai, Hans‐Georg Müller|arXiv (Cornell University)|2016. 05. 12.

Gene expression and cancer classification참고 문헌 50인용 수 28

한 줄 요약

이 논문은 곡선을 공통 고유함수에 투영하고 그 결과로 얻은 점수의 밀도 비율을 추정하여 기능 데이터를 위한 비모수 베이즈 분류기 모델을 제안한다. 무한차원 문제를 일차원 밀도 추정으로 줄임으로써 차원의 극복 문제를 피하고, 정규성 조건 하에서 점점이 완벽한 분류를 달성하며, 시뮬레이션과 fMRI, 유전자 발현 데이터를 포함한 실제 데이터 응용에서 뛰어난 유한표본 성능을 보인다.

ABSTRACT

Bayes classifiers for functional data pose a challenge. This is because probability density functions do not exist for functional data. As a consequence, the classical Bayes classifier using density quotients needs to be modified. We propose to use density ratios of projections on a sequence of eigenfunctions that are common to the groups to be classified. The density ratios can then be factored into density ratios of individual functional principal components whence the classification problem is reduced to a sequence of nonparametric one-dimensional density estimates. This is an extension to functional data of some of the very earliest nonparametric Bayes classifiers that were based on simple density ratios in the one-dimensional case. By means of the factorization of the density quotients the curse of dimensionality that would otherwise severely affect Bayes classifiers for functional data can be avoided. We demonstrate that in the case of Gaussian functional data, the proposed functional Bayes classifier reduces to a functional version of the classical quadratic discriminant. A study of the asymptotic behavior of the proposed classifiers in the large sample limit shows that under certain conditions the misclassification rate converges to zero, a phenomenon that has been referred to as "perfect classification". The proposed classifiers also perform favorably in finite sample applications, as we demonstrate in comparisons with other functional classifiers in simulations and various data applications, including wine spectral data, functional magnetic resonance imaging (fMRI) data for attention deficit hyperactivity disorder (ADHD) patients, and yeast gene expression data.

연구 동기 및 목표

기능 데이터를 위한 최적의 베이즈 분류기를 구성하는 데 도전하는 것. 기존의 밀도 기반 접근법은 확률 밀도 함수가 존재하지 않기 때문에 실패한다.
무한차원 기능 데이터에 내재된 심각한 차원의 극복 문제를 해결하기 위해 공통 또는thonormal 기저인 고유함수에 투영함으로써 해결하는 것.
실제 추정에 실현 가능하면서도 오분류율을 최소화하는 데 최적성을 유지하는 비모수 베이즈 분류기를 개발하는 것.
제안된 분류기가 점점이 완벽한 분류를 달성하는 조건을 설정하는 것, 즉 표본 크기가 증가함에 따라 오분류율이 0으로 수렴한다.
fMRI, 와인 스펙트럼 데이터, 효모 유전자 발현 데이터를 포함한 시뮬레이션과 실제 응용을 통해 방법의 뛰어난 유한표본 성능을 보여주는 것.

제안 방법

각 그룹의 융합 공분산 구조에서 유도된 공통 또는thonormal 기저인 고유함수에 기능 관측치를 투영한다.
비모수 커널 밀도 추정을 사용하여 각 기능 주성분 점수의 일차원 밀도 비율을 추정한다.
전체 밀도 비율을 구성 요소 간 개별 밀도 비율의 곱으로 인수분해함으로써 차원 감소를 가능하게 하고 고차원 밀도 추정을 피한다.
제안된 밀도 비율의 곱을 임계값과 비교하여 베이즈 분류기를 구성하고, 최대 사후 확률 기반으로 그룹 소속을 할당한다.
유한표본에서 직접 밀도 비율 접근법보다 성능이 뛰어날 수 있는 비모수 회귀 기반의 대안적 구현을 제공한다.
점근 이론을 사용하여 추정된 밀도 비율과 분류기 성능의 일致성과 수렴 속도를 확립한다.

실험 결과

연구 질문

RQ1확률 밀도 함수가 존재하지 않음에도 불구하고 기능 데이터를 위한 비모수 베이즈 분류기를 구성할 수 있는가?
RQ2오분류율 최소화의 최적성을 유지하면서 기능 데이터 분류에서의 차원의 극복 문제를 어떻게 완화할 수 있는가?
RQ3제안된 분류기가 점점이 완벽한 분류를 달성하는 조건은 무엇인가? 즉, 오분류율이 표본 크기가 증가함에 따라 0으로 수렴하는가?
RQ4제안된 분류기의 성능은 유한표본 설정에서 기존의 기능 분류기와 비교해 어떻게 되는가?
RQ5비모수 회귀 기반의 대안적 구현이 실생활에서 직접 밀도 비율 접근법을 능가하는가?

주요 결과

정규성 조건 하에서 제안된 분류기는 점점이 완벽한 분류를 달성한다. 즉, 표본 크기가 증가함에 따라 오분류율이 0으로 수렴한다.
정규 기능 데이터의 경우, 분류기는 기능적 판별 분석의 일종으로 축소되며, 고전적인 다변량 방법과 연결된다.
기능 주성분을 통해 일차원 밀도 추정으로 문제를 축소함으로써 차원의 극복 문제를 피한다.
유한표본 시뮬레이션과 실제 데이터 응용, fMRI 데이터(ADHD), 효모 유전자 발현 데이터 등에서 기존 분류기들과 비교해 유리한 성능을 보였다.
비모수 회귀 기반의 분류기 구현은 일반적으로 유한표본에서 직접 밀도 비율 접근법보다 성능이 뛰어나다.
추정된 밀도 비율의 수렴 속도는 $ O_P(h + (nh / \ ext{log} n)^{-1/2} + (m^{2/5} h^2)^{-1}) $로 확립되었으며, 여기서 $ m $은 관측점의 수이고 $ h $는 밴드위드이다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.