QUICK REVIEW

[論文レビュー] On Loss Functions for Deep Neural Networks in Classification

Katarzyna Janocha, Wojciech Marian Czarnecki|arXiv (Cornell University)|Feb 18, 2017

Anomaly Detection Techniques and Applications参考文献 7被引用数 57

ひとこと要約

本論文は、標準的なロス関数である対数損失以外のさまざまな損失関数が、深層分類器の訓練ダイナミクス、ロバスト性、および性能に与える影響を分析し、理論的正当化と経験的比較を提供する。

ABSTRACT

Deep neural networks are currently among the most commonly used classifiers. Despite easily achieving very good performance, one of the best selling points of these models is their modular design - one can conveniently adapt their architecture to specific needs, change connectivity patterns, attach specialised layers, experiment with a large amount of activation functions, normalisation schemes and many others. While one can find impressively wide spread of various configurations of almost every aspect of the deep nets, one element is, in authors' opinion, underrepresented - while solving classification problems, vast majority of papers and applications simply use log loss. In this paper we try to investigate how particular choices of loss functions affect deep models and their learning dynamics, as well as resulting classifiers robustness to various effects. We perform experiments on classical datasets, as well as provide some additional, theoretical insights into the problem. In particular we show that L1 and L2 losses are, quite surprisingly, justified classification objectives for deep nets, by providing probabilistic interpretation in terms of expected misclassification. We also introduce two losses which are not typically used as deep nets objectives and show that they are viable alternatives to the existing ones.

研究の動機と目的

代替的な損失関数が深層分類器の訓練ダイナミクスに与える影響を調査する。
L1 や L2 のような非伝統的な損失に対する確率的解釈を分類において提供する。
標準データセットでの実験を通じて、さまざまな損失に対する入力ノイズおよびラベルノイズへのロバスト性を評価する。
深層ネットで log loss よりも margin、expectation、または他の損失を選ぶべき状況について指針を提供する。

提案手法

L1、L2、sigma を用いた L1、sigma を用いた L2、Chebyshev を用いた L2、ヒンジおよびその派生、対数交差エントロピー、平方対数、Tanimoto、Cauchy–Schwarz Divergence を含む十二の損失関数を分析する。
L1 と L2 を、予測誤分類の期待値および正則化された期待値に結びつける理論的命題を提供する。
結末層の活性化と特に関連する損失の微分特性と分段的直線性を検討する。
単純なデータセットおよび標準ベンチマーク（MNIST、CIFAR-10）上で、深層ネットワークの深さとアーキテクチャを変えつつ、損失関数を経験的に比較する。
入力およびラベルの摂動下で、学習速度、最終精度、およびノイズに対するロバスト性を評価する。

実験結果

リサーチクエスチョン

RQ1深層ネットにおける分類の学習ダイナミクスと収束に、さまざまな損失関数はどのような影響を与えるか。
RQ2L1 や L2 のような回帰指向の損失は、分類目的として意味のある確率的解釈を持つのか。
RQ3どの損失がより速い収束、より良い一般化、あるいは入力ノイズとラベルノイズへのより大きなロバスト性を深層アーキテクチャで提供するか。
RQ4非伝統的な損失（Tanimoto、Cauchy–Schwarz Divergence）は、実践上、標準のクロスエントロピーとどのように比較されるか。
RQ5分類タスクにおいて、実務家はどのような状況で margin ベース、expectation ベース、または log loss を選ぶべきか。

主な発見

L1 および L2 損失は、予測誤分類の期待値に結びつく確率的解釈を持ち、分類目的に対して頑健な見解を提供する。
確率に適用したとき、L1/L2 には非単調で非凸の微分が生じ、特に大きく誤分類された例で学習を遅らせる。
マージンベースの損失（hinge とその派生）は、深いアーキテクチャで特に高速な訓練と強い一般化をもたらすことが多い。
期待値損失（L1∘σ および L2∘σ）は訓練速度が遅くなる傾向があるが、入力およびラベルノイズへの頑健性を提供できる。
Cauchy–Schwarz Divergence は競争力があり、報告された設定では速度と最終性能の点で log loss を上回ることもある。
Tanimoto 損失は特定の実験でノイズに対して強い頑健性を示し、さらなる研究の可能性を示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。