QUICK REVIEW

[論文レビュー] Distribution-Free Distribution Regression

Barnabás Póczos, Alessandro Rinaldo|arXiv (Cornell University)|Feb 1, 2013

Statistical Methods and Inference参考文献 18被引用数 53

ひとこと要約

本稿では、有限の標本から観測される未知の確率分布に依存する応答を扱う分布回帰のための分布フリーなカーネル-カーネル推定量を提案する。弱い滑らかさおよび二重次元の仮定の下で、パラメトリックまたはガウス型誤差の仮定なしに予測リスクに対して多項式収束率を達成でき、標本からの分布推定に起因する測定誤差に対してもロバストである。

ABSTRACT

Distribution regression refers to the situation where a response Y depends on a covariate P where P is a probability distribution. The model is Y=f(P)+e where f is an unknown regression function and e is a random error. Typically, we do not observe P directly, but rather, we observe a sample from P. In this paper we develop theory and methods for distribution-free versions of distribution regression. This means that we do not make strong distributional assumptions about the error term e and covariate P. We prove that when the effective dimension is small enough (as measured by the doubling dimension), then the excess prediction risk converges to zero with a polynomial rate.

研究の動機と目的

観測されたデータポイントではなく、未知の確率分布に依存する応答のための分布フリーな回帰手法を開発すること。
有限のi.i.d.標本からの観測による分布の測定誤差という課題に取り組むこと。
誤差分布や共変量分布に対して強いパラメトリックまたは分布的仮定を設けない理論的リスクバインディングを確立すること。
二重次元による内挿次元の観点から、予測リスクの収束速度を特徴づけること。
真の分布が未知であり、唯一の標本のみが利用可能な状況でも推定量が有効であることを示すこと。

提案手法

カーネル-カーネル推定量は2つのカーネルを用いる：1つは標本から各分布の密度を推定する（カーネル密度推定を介して）、もう1つは推定された分布の上での局所平均化を実行する。
推定量は、訓練分布とテスト分布の推定密度間のL1距離に基づく重みを用いて、応答の重み付き平均を計算する。
密度推定および回帰カーネルの両方のバンド幅は、一貫性を保証する理論的条件に従って適応的に選択される。
安定性のため、回帰関数fのホルダー連続性仮定と、リプシッツ連続かつ compact な台を持つカーネルに依存する。
集中不等式およびメトリックエントロピーの議論を用いて理論的リスクバインディングを導出し、最終的なリスクは分布空間の二重次元に依存して表現される。
有限標本からの分布推定におけるサンプリング誤差を分析し、この誤差が全体のリスクに多項式的に減少する項として寄与することを示している。

実験結果

リサーチクエスチョン

RQ1分布のパラメトリックな形や誤差分布の仮定なしに、分布回帰における一貫性のある予測を達成できるか？
RQ2未知の分布からの有限標本が観測される状況で、予測リスクの最適収束速度は何か？
RQ3分布空間の内挿次元（二重次元で測定）は、学習レートにどのように影響するか？
RQ4有限標本からの分布推定に起因する測定誤差は、分布の完全な知識がある場合と比較して、性能を著しく劣化させるか？
RQ5提案されたカーネル-カーネル推定量は、古典的な測定誤差モデルで見られる対数的レートよりも速い収束レートを達成できるか？

主な発見

分布数mが大きく、有効次元d（二重次元による）が小さいとき、余剰予測リスクは多項式レートO(m^{-β/(2β+d)})でゼロに収束する。
各分布の標本数nが大きいとき、リスクレートはO(n^{-β/((k+2)(β+d+1))}) となる。これは、サンプリングによる推定誤差が標本数の増加に伴い小さくなることを示している。
最適なバンド幅選択はh = Θ(m^{-1/(2β+d)}) であり、これはバンド幅と標本サイズに関する仮定が漸近的に満たされることを保証する。
nがmに対して十分に大きい場合、この手法はd次元における標準的なβ-ホルダー回帰と同等のレートを達成する。これは、この領域ではサンプリング誤差の影響が無視できるということを示している。
リスクバインディングは非ガウス型測定誤差に対してもロバストであり、固定誤差分散に起因する対数的レートに苦しむ古典的モデルとは異なり、優れた性能を示す。
数値実験により、推定量はベータ分布の歪度と回転させたガウス分布のエントロピーを正確に予測でき、予測値と真値がよく一致していることが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。