QUICK REVIEW

[論文レビュー] Optimal Learners for Multiclass Problems

Amit Daniely, Shai Shalev‐Shwartz|arXiv (Cornell University)|May 10, 2014

Machine Learning and Algorithms参考文献 16被引用数 34

ひとこと要約

本稿では、最適な多値分類学習には不適切な学習（仮説クラスに属さない仮説を出力すること）が必要であることを確立しており、いかなる経験的リスク最小化（ERM）ルールに対しても最適性が達成できないことを示している。新たに導入された次元 $\text{dim}(\text{H})$ は、定数倍の要因を除いて標本複雑性を特徴づけ、1-インクルージョンアルゴリズムが近似的に最適な標本複雑性を達成することを証明している。また、一般化線形分類器に対して計算的に効率的な最適な学習者を構築し、ERM よりも優れた標本複雑性を実現している。

ABSTRACT

The fundamental theorem of statistical learning states that for binary classification problems, any Empirical Risk Minimization (ERM) learning rule has close to optimal sample complexity. In this paper we seek for a generic optimal learner for multiclass prediction. We start by proving a surprising result: a generic optimal multiclass learner must be improper, namely, it must have the ability to output hypotheses which do not belong to the hypothesis class, even though it knows that all the labels are generated by some hypothesis from the class. In particular, no ERM learner is optimal. This brings back the fundmamental question of "how to learn"? We give a complete answer to this question by giving a new analysis of the one-inclusion multiclass learner of Rubinstein et al (2006) showing that its sample complexity is essentially optimal. Then, we turn to study the popular hypothesis class of generalized linear classifiers. We derive optimal learners that, unlike the one-inclusion algorithm, are computationally efficient. Furthermore, we show that the sample complexity of these learners is better than the sample complexity of the ERM rule, thus settling in negative an open question due to Collins (2005).

研究の動機と目的

多値分類における最適な学習の方法を解明すること、特に ERM ルールの制限を踏まえて。
VC次元を多値設定に一般化する新しい組合せ的次元 $\text{dim}(\text{H})$ を用いて、多値仮説クラスの標本複雑性を特徴づけること。
1-インクルージョンアルゴリズムが、帰納的およびPAC設定において近似的に最適な標本複雑性を達成することを示し、先行研究の分析を改善すること。
一般化線形分類器に対して、計算的に効率的な最適な学習者を構築し、ERM よりも優れた標本複雑性を実現すること。
Collins (2005) が提起した未解決問題を解消し、一般化線形モデルにおいて ERM が劣っていることを示すこと。

提案手法

仮説クラス $\mathcal{H}$ が特定の多値シャッタリング条件を満たすように、$\mathcal{H}$ によってシャッタリングされる集合の最大サイズとして定義される新しい次元 $\dim(\mathcal{H})$ を提案する。
新しい系列 $\mu_{\mathcal{H}}(m)$ を用いて、1-インクルージョン多値学習者を分析し、$m$ 個のサンプル後に達成可能な最良の誤差率を定量化する。
1-インクルージョン学習者の標本複雑性が $\Theta\left(\frac{\mu_{\mathcal{H}}(m)}{m}\right)$ であることを証明し、帰納的設定において最適性が定数倍（2倍）の要因内で達成されることを示す。
帰納的学習への還元を確立することで、PACモデルへの最適性保証を、$\epsilon$ および $\delta$ の対数的要因を除いて拡張する。
系列 $\mu_{\mathcal{H}}(m)$ と $\dim(\mathcal{H})$ の関係を示す予想を提示し、$m \geq \dim(\mathcal{H})$ のとき $\mu_{\mathcal{H}}(m) = \Theta(\dim(\mathcal{H}))$ であると仮定することで、標本複雑性の明快な特徴づけが得られると示唆する。
新しい次元を活用し、一般化線形分類器のための計算的に効率的な最適な学習者を構築し、その標本複雑性が ERM よりも優れていることを示し、Collins (2005) の否定的結果を解消する。

実験結果

リサーチクエスチョン

RQ1多値分類において汎用的な最適な学習アルゴリズムは存在するのか？その性質は何か？
RQ2多値学習の標本複雑性は、2値分類におけるVC次元に類似した単一の組合せ的次元によって特徴づけられるか？
RQ3なぜ ERM は多値設定において劣っているのか？どのような学習ルールの構造的性質が不十分なのか？
RQ4一般化線形モデルのような実用的な仮説クラスに対して、計算的に効率的な最適な学習者を構築できるか？
RQ5新しい次元 $\dim(\mathcal{H})$ は、Natarajan次元やグラフ次元といった既存の概念よりも、標本複雑性をより厳密に特徴づけるものか？

主な発見

本稿は、任意の最適な多値分類学習ルールが不適切であること、つまり仮説クラスに属さない仮説を出力しなければならないことを証明しており、ERM が根本的に劣っていることを示している。
1-インクルージョンアルゴリズムは、帰納的設定において最適な標本複雑性の2倍以内に達成でき、先行研究の $\log(|\mathcal{Y}|)$ 要因の保証を改善している。
新しい次元 $\dim(\mathcal{H})$ は、Natarajan次元とグラフ次元の間で有界である：$\Ndim(\mathcal{H}) \leq \dim(\mathcal{H}) \leq \Gdim(\mathcal{H})$ であり、Natarajan の下界を一致または上回る標本複雑性の下界を提供する。
一般化線形分類器に対して、本稿は計算的に効率的な最適な学習者を構築し、その標本複雑性が ERM よりも厳密に優れていることを示しており、Collins (2005) が提起した未解決問題を解決している。
予想される $\mu_{\mathcal{H}}(m) = \Theta(\dim(\mathcal{H}))$ が成立すれば、$\epsilon_{\mathcal{H}}(m) = \Theta\left(\frac{\dim(\mathcal{H})}{m}\right)$ および $m_{\mathcal{H}}(\epsilon,\delta) = \Theta\left(\frac{\dim(\mathcal{H}) \log(1/\delta)}{\epsilon}\right)$ という明快な標本複雑性の特徴づけが得られると示唆する。
本稿は、グラフ次元が標本複雑性を特徴づけないことを示しており、実際の標本複雑性よりもはるかに大きくなる可能性があるため、最適な学習を特徴づけるには不十分である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。