QUICK REVIEW

[論文レビュー] Fast Rates for General Unbounded Loss Functions: from ERM to Generalized Bayes

Peter Grünwald, Nishant A. Mehta|arXiv (Cornell University)|May 1, 2016

Machine Learning and Algorithms参考文献 62被引用数 33

ひとこと要約

本稿は、重い尾を持つ分布のもとで一般の有界でない損失関数（例：対数損失、二乗損失）に対して、高速な過剰リスク収束速度を確立する。重み付き一般化リスク最小化（v-GRIP）条件とウェッジ条件を導入し、過剰損失の下尾と上尾を制御することで、モデル不適合の下でも、経験的リスク最小化（ERM）、MDL、η一般化ベイズ推定器に対して高速な収束速度を実現する。

ABSTRACT

We present new excess risk bounds for general unbounded loss functions including log loss and squared loss, where the distribution of the losses may be heavy-tailed. The bounds hold for general estimators, but they are optimized when applied to $η$-generalized Bayesian, MDL, and empirical risk minimization estimators. In the case of log loss, the bounds imply convergence rates for generalized Bayesian inference under misspecification in terms of a generalization of the Hellinger metric as long as the learning rate $η$ is set correctly. For general loss functions, our bounds rely on two separate conditions: the $v$-GRIP (generalized reversed information projection) conditions, which control the lower tail of the excess loss; and the newly introduced witness condition, which controls the upper tail. The parameter $v$ in the $v$-GRIP conditions determines the achievable rate and is akin to the exponent in the Tsybakov margin condition and the Bernstein condition for bounded losses, which the $v$-GRIP conditions generalize; favorable $v$ in combination with small model complexity leads to $ ilde{O}(1/n)$ rates. The witness condition allows us to connect the excess risk to an "annealed" version thereof, by which we generalize several previous results connecting Hellinger and Rényi divergence to KL divergence.

研究の動機と目的

統計学的学習における高速収束速度を、重い尾を持つ分布を許容する一般の有界でない損失関数へと拡張すること。
従来の理論が有界な損失やベルシュタイン条件のような強い条件を必要としていたという制限を克服すること。
モデル不適合下でのERM、MDL、一般化ベイズ推定に対する高速収束に関する既存結果を統一的かつ一般化すること。
学習率ηを持つ一般化ベイズ推定器およびMDL推定器に最適化された過剰リスクバウンドを提供すること。
弱い、有界でない損失仮定の下で、PACベイズ法と一般化ベイズ法との間の関係を明確にすること。

提案手法

過剰損失の下尾を制御するためのv-GRIP条件を導入し、Tsybakovのマージン条件やベルシュタイン条件を有界でない損失へ一般化する。
過剰損失の上尾を制御するためのウェッジ条件を提案し、過剰リスクとアンニュールド過剰リスクとの間の接続を可能にする。
任意の推定器に対して一般化された過剰リスクバウンドを導出するが、これらはERM、MDL、η一般化ベイズ推定器に最適化される。
ウェッジ条件を用いて、Rényi発散とKL発散との間の関係を有界な設定から有界でない設定へ一般化する。
バウンドを対数損失および二乗損失に適用し、モデル不適合下でのη一般化ベイズ推定における収束速度を示す。
v-GRIP条件とウェッジ条件が、ベルシュタイン条件が成立しない場合（特に有界でない過剰損失の状況）でも成立しうることを示す。

実験結果

リサーチクエスチョン

RQ1重い尾を持つ分布のもとで、一般の有界でない損失関数に対して高速な収束速度を達成できるか？
RQ2Tsybakovのマージン条件やベルシュタイン条件を有界でない損失に一般化する条件は何か？
RQ3v-GRIP条件とウェッジ条件が、有界でない過剰損失の下でどのように高速な収束を可能にするか？
RQ4どのような設定で、モデル不適合下でも一般化ベイズ推定器およびMDL推定器が高速な収束を達成するか？
RQ5弱い、有界でない損失仮定の下で、PACベイズ法と一般化ベイズ法との間の関係を形式化できるか？

主な発見

v-GRIP条件は過剰損失の下尾を制御し、有界でない損失に対してTsybakovのマージン条件やベルシュタイン条件を一般化する。
ウェッジ条件は過剰損失の上尾を制御し、Rényi発散とKL発散との間の関係を有界でない設定へ一般化可能にする。
対数損失の場合、バウンドは、一般化されたヘルンダーリング距離を用いた、モデル不適合下でのη一般化ベイズ推定における高速収束速度を示唆する。
vが有利でかつモデルの複雑さが小さい場合、バウンドは有界でない損失の状況下でも Õ(1/n) の収束速度を達成する。
v-GRIP条件とウェッジ条件は、ベルシュタイン条件が成立しない場合（例：有界でない平均を持つ正規分布族）でも成立しうる。
本結果は、ERM、MDL、η一般化ベイズ推定を含む一般の推定器に適用可能であり、可算個のモデルの和集合へも拡張可能である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。