QUICK REVIEW

[論文レビュー] Optimal Bayes Classifiers for Functional Data and Density Ratios

Xiongtao Dai, Hans‐Georg Müller|arXiv (Cornell University)|May 12, 2016

Gene expression and cancer classification参考文献 50被引用数 28

ひとこと要約

本稿では、曲線を共通の固有関数に射影し、それらのスコアの密度比を推定することで、関数データに対する非パラメトリックベイズ分類器を提案する。無限次元の問題を1次元の密度推定に還元することにより、次元の呪いを回避し、正則性条件下で漸近的に完全な分類を達成する。シミュレーションおよびfMRIや遺伝子発現データを含む実データ応用においても、良好な有限標本性能を示す。

ABSTRACT

Bayes classifiers for functional data pose a challenge. This is because probability density functions do not exist for functional data. As a consequence, the classical Bayes classifier using density quotients needs to be modified. We propose to use density ratios of projections on a sequence of eigenfunctions that are common to the groups to be classified. The density ratios can then be factored into density ratios of individual functional principal components whence the classification problem is reduced to a sequence of nonparametric one-dimensional density estimates. This is an extension to functional data of some of the very earliest nonparametric Bayes classifiers that were based on simple density ratios in the one-dimensional case. By means of the factorization of the density quotients the curse of dimensionality that would otherwise severely affect Bayes classifiers for functional data can be avoided. We demonstrate that in the case of Gaussian functional data, the proposed functional Bayes classifier reduces to a functional version of the classical quadratic discriminant. A study of the asymptotic behavior of the proposed classifiers in the large sample limit shows that under certain conditions the misclassification rate converges to zero, a phenomenon that has been referred to as "perfect classification". The proposed classifiers also perform favorably in finite sample applications, as we demonstrate in comparisons with other functional classifiers in simulations and various data applications, including wine spectral data, functional magnetic resonance imaging (fMRI) data for attention deficit hyperactivity disorder (ADHD) patients, and yeast gene expression data.

研究の動機と目的

従来の密度ベースのアプローチが確率密度関数の欠如により失敗するため、関数データに対する最適なベイズ分類器を構築する課題に対処すること。
無限次元関数データに内在する深刻な次元の呪いを、共通の正規直交基底である固有関数に射影することで克服すること。
誤分類率を最小化するという最適性を維持しながら、実際の推定において実行可能である非パラメトリックベイズ分類器を開発すること。
提案された分類器が漸近的に完全な分類を達成する、すなわち誤分類率が標本サイズの増加に伴い0に収束する条件を確立すること。
fMRI、ワインのスペクトルデータ、イーストの遺伝子発現データを含む、シミュレーションおよび実世界の応用を通じて、本手法の優れた有限標本性能を示すこと。

提案手法

グループのプールド共分散構造から得られる共通の正規直交基底である固有関数に、関数観測値を射影する。
非パラメトリックカーネル密度推定を用いて、各関数主成分スコアの1次元密度比を推定する。
全体の密度比を、各成分における個別の密度比の積に因数分解することで、次元削減を実現し、高次元密度推定を回避する。
推定された密度比の積をしきい値と比較してベイズ分類器を構築し、最大事後確率に基づいてグループ所属を割り当てる。
一部の有限標本において、直接的な密度比アプローチを上回る性能を示すことがある、非パラメトリック回帰を用いた代替実装を提供する。
漸近的理論を用いて、推定された密度比および分類器性能の一貫性と収束速度を確立する。

実験結果

リサーチクエスチョン

RQ1確率密度関数の欠如があるにもかかわらず、関数データに対する非パラメトリックベイズ分類器を構築することは可能か？
RQ2誤分類率を最小化するという最適性を保ちながら、関数データ分類における次元の呪いをどのように軽減できるか？
RQ3提案された分類器が漸近的に完全な分類を達成する条件は何か、すなわち誤分類率が0に収束する条件は何か？
RQ4有限標本設定において、本手法の性能は既存の関数分類器と比べてどうか？
RQ5非パラメトリック回帰を用いた代替実装は、実際の応用において直接的な密度比アプローチを上回る性能を示すか？

主な発見

提案された分類器は正則性条件下で漸近的に完全な分類を達成する。すなわち、標本サイズが増加するに従い、誤分類率は0に収束する。
ガウス関数データの場合、分類器は古典的な多変量手法に相当する関数的二次判別分析に帰着する。
関数主成分を用いた1次元密度推定への還元により、次元の呪いを回避する。
有限標本におけるシミュレーションおよび実データ応用（ADHDのfMRIデータ、イーストの遺伝子発現）において、既存の分類器と比較して良好な性能を示す。
非パラメトリック回帰に基づく分類器の実装は、有限標本において、直接的な密度比アプローチを上回ることが多い。
推定された密度比の収束速度は、$ O_P(h + (nh / \ ext{log} n)^{-1/2} + (m^{2/5} h^2)^{-1}) $ として確立され、ここで $ m $ は観測点の数、$ h $ はバンド幅である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。