QUICK REVIEW

[論文レビュー] Minimizing the Maximal Loss: How and Why?

Shai Shalev‐Shwartz, Yonatan Wexler|arXiv (Cornell University)|Feb 4, 2016

Machine Learning and Algorithms参考文献 20被引用数 41

ひとこと要約

本稿では、任意のオンライン学習アルゴリズムを、学習データにおける最大損失を最小化するものに変換するメタアルゴリズム、FOL（Follow the Optimal Loss）を提案する。問題を零和ゲームとして定式化し、損失重みに対して反復的更新を適用することで、特にレアまたは困難な例において、標準的なSGDよりも収束が速く、一般化性能が優れている。実験結果では、訓練誤差がほぼゼロに近づき、テスト性能も向上している。

ABSTRACT

A commonly used learning rule is to approximately minimize the \emph{average} loss over the training set. Other learning algorithms, such as AdaBoost and hard-SVM, aim at minimizing the \emph{maximal} loss over the training set. The average loss is more popular, particularly in deep learning, due to three main reasons. First, it can be conveniently minimized using online algorithms, that process few examples at each iteration. Second, it is often argued that there is no sense to minimize the loss on the training set too much, as it will not be reflected in the generalization loss. Last, the maximal loss is not robust to outliers. In this paper we describe and analyze an algorithm that can convert any online algorithm to a minimizer of the maximal loss. We prove that in some situations better accuracy on the training set is crucial to obtain good performance on unseen examples. Last, we propose robust versions of the approach that can handle outliers.

研究の動機と目的

深層学習における平均損失の最小化の限界を克服すること、特に困難な例での収束が遅いこと。
最大損失の最小化が、特にレアまたは分類が難しい例が性能に大きな影響を与える場合に、より優れた一般化性能をもたらすことを示すこと。
外れ値に敏感ではなく、最も困難な学習例に焦点を当てた、強固で効率的なアルゴリズムを開発すること。
すべての訓練例（特にレアな例を含む）で高い精度を達成することは、未知のデータに対する良好な性能にとって不可欠であることを示すこと。

提案手法

FOLは、例の重みベクトル p とモデルパラメータ w の間の零和ゲームとして、最大損失の最小化を定式化する。
w に対してオンライン勾配降下法を用い、p に対して乗法的重み更新を適用することで、反復的に最大損失を最小化する。
アルゴリズムは訓練例の上に確率分布 p を維持し、損失が大きい例に注目して更新を行う。
各反復で、p に従ってサンプリングされたバッチに対してSGDでモデルを更新し、p は誤分類または高損失の例を強調するように更新される。
滑らかな損失関数を導入し、対数バリアを用いて極端な重みを避けることで、手法をロバスト化する。
理論的分析により、外れ値を含むデータでも、FOLが低最大損失の解に収束することが示された。

実験結果

リサーチクエスチョン

RQ1標準的なSGDが困難な例での収束に苦しむオンライン学習設定において、最大損失を効率的に最小化できるか？
RQ2最大損失の最小化は、平均損失の最小化よりも一般化性能が優れているのか、特にレアまたは分類が難しい例において？
RQ3任意のオンライン学習者を最大損失最小化者に変換するメタアルゴリズムを設計できるか、訓練効率を損なわず？
RQ4実際の応用において、最大損失最小化の性能はAdaBoostや他のアンサンブル手法と比べてどうか？
RQ5外れ値に対しても性能を維持できるように、最大損失最小化のロバストな変種を設計できるか？

主な発見

FOLは27エポックで訓練誤差がゼロに達したが、SGDは0.1313%の誤差に達するまでに14,000エポック以上を要した。収束が著しく速いことが示された。
FOLはテスト誤差0.14%を達成し、長時間訓練したSGDの0.35%を上回った。一般化性能の向上が確認された。
FOLの収束は、情報量の多い例に注目することで駆動されている。246,000例のうち、困難な例は984例にとどまり、FOLは効率的にそれらを標的にした。
FOLの最終仮説は訓練誤差ゼロを達成したが、AdaBoostの10個の弱学習器のアンサンブルは20エポックを要し、推論速度が10倍遅かった。
理論的分析により、レアな例が一般化に重要である場合、平均損失の最小化よりも最大損失の最小化がより効果的である可能性があることが示された。
FOLのロバストな変種は外れ値の影響を受けても性能を維持し、スムージングと正則化により最大損失最小化が耐障害性を持つことが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。