QUICK REVIEW

[論文レビュー] Learning Surrogate Losses

Josif Grabocka, Randolf Scholz|arXiv (Cornell University)|May 24, 2019

Domain Adaptation and Few-Shot Learning参考文献 23被引用数 27

ひとこと要約

本稿では、AUC、F1、Jaccardインデックス、MCRなどの非微分可能で非分解可能な機械学習目的関数を最小化するために、滑らかで微分可能であるが代替損失関数をニューラルネットワークとして学習する、新しいオフザシェル最適化フレームワークを提案する。二段階最適化により、代替損失ネットワークと予測モデルを同時に学習することで、9つの多様なデータセットにおいて、手作業で設計された代替関数よりも優れた性能を達成した。

ABSTRACT

The minimization of loss functions is the heart and soul of Machine Learning. In this paper, we propose an off-the-shelf optimization approach that can minimize virtually any non-differentiable and non-decomposable loss function (e.g. Miss-classification Rate, AUC, F1, Jaccard Index, Mathew Correlation Coefficient, etc.) seamlessly. Our strategy learns smooth relaxation versions of the true losses by approximating them through a surrogate neural network. The proposed loss networks are set-wise models which are invariant to the order of mini-batch instances. Ultimately, the surrogate losses are learned jointly with the prediction model via bilevel optimization. Empirical results on multiple datasets with diverse real-life loss functions compared with state-of-the-art baselines demonstrate the efficiency of learning surrogate losses.

研究の動機と目的

AUC、F1、Jaccardインデックスなどの非微分可能で非分解可能な損失関数（勾配降下法では直接最小化できない）を最適化する課題に対処すること。
手作業で設計された代替緩和法に依存する必要を排除し、タスク固有の代替損失をエンドツーエンドで学習すること。
代替損失学習プロセスを二段階最適化問題として形式化し、予測モデルと代替損失ネットワークの共同学習を可能にすること。
データセット固有の代替損失学習が、汎用的または事前学習済みの代替損失よりも優れた一般化性能を示すことを実証すること。
真の損失関数の勾配情報が不要な、非微分可能損失関数に一般に適用可能なオフザシェル最適化フレームワークを提供すること。

提案手法

本手法は、ミニバッチ上で真の非微分可能損失関数を近似する、学習可能なニューラルネットワークとして代替損失を定義する。
代替ネットワークは集合的（set-wise）であり、ミニバッチ内のインスタンスの順序に依存しないため、非分解可能な損失の適切な取り扱いが可能である。
代替損失は二段階最適化により訓練される：外側のループでは訓練データ上の真の損失を最小化し、内側のループでは代替ネットワークが真の損失を再現するように最適化する。
予測モデルと代替損失ネットワークの共同学習を可能にするために、交互最適化アルゴリズムが用いられ、代替ネットワークを介して勾配が逆伝播される。
真の損失をブラックボックス関数として扱い、モデルパラメータに関する明示的勾配計算を必要としない。
汎用的代替関数に依存するのではなく、データセットごとに代替損失を学習することで、精度と適合性が向上する。

実験結果

リサーチクエスチョン

RQ1ニューラルネットワークを訓練して、非微分可能真の損失関数を正確に近似する滑らかで微分可能な代替損失を学習できるか？
RQ2データセット固有の代替損失を学習することは、汎用的または手作業で設計された代替緩和法を上回るか？
RQ3二段階最適化により、真の損失の勾配が不要な状況でも、予測モデルと代替損失ネットワークの共同学習が可能か？
RQ4本手法は、複雑な非分解可能な損失を伴う実世界のデータセットに対してもスケーラブルで十分に効率的か？
RQ5多様な損失関数において、代替損失学習は最先端のベースラインと比較して、最終的なモデル性能に優れているか？

主な発見

代替損失学習（SL-R）は、9つのデータセットにおける4つの損失関数（MCR、AUC、F1、JAC）すべてで、すべての最先端ベースラインを下回るテスト損失を達成した。
平均して、MCRでは9つのデータセットのうち5.5つ、AUCでは8.0つ、JACでは5.5つ、F1では6.0つでSL-Rが優位であり、一貫した優位性が示された。
IJCデータセットでは、SL-RがAUC 0.0030を達成し、次に優れたベースライン（GO）の0.0258を著しく上回った。
SUSYデータセットでは、SL-RがF1損失を0.2289に低下させ、コストセンシティブベースラインの0.2420を上回った。
AUCおよびJACの両方において、すべてのデータセットで最先端の結果を達成し、SL-RはLovasz Soft-Maxおよびペairwiseランキングベースラインを常に上回った。
最大のデータセット（SUSY）における学習時間は、単一GPUで約1日4時間であった。これは、追加の複雑性にもかかわらず、実用的な妥当性を示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。