Skip to main content
QUICK REVIEW

[論文レビュー] Large-Margin Softmax Loss for Convolutional Neural Networks

Weiyang Liu, Yandong Wen|arXiv (Cornell University)|Dec 7, 2016
Advanced Neural Network Applications参考文献 29被引用数 432
ひとこと要約

本論文は Large-Margin Softmax (L-Softmax) loss を導入し、角度マージン版の softmax として、分類と検証のためのより識別的な CNN 特徴を学習し、MNIST、CIFAR、LFW データセットで一貫した改善を示す。

ABSTRACT

Cross-entropy loss together with softmax is arguably one of the most common used supervision components in convolutional neural networks (CNNs). Despite its simplicity, popularity and excellent performance, the component does not explicitly encourage discriminative learning of features. In this paper, we propose a generalized large-margin softmax (L-Softmax) loss which explicitly encourages intra-class compactness and inter-class separability between learned features. Moreover, L-Softmax not only can adjust the desired margin but also can avoid overfitting. We also show that the L-Softmax loss can be optimized by typical stochastic gradient descent. Extensive experiments on four benchmark datasets demonstrate that the deeply-learned features with L-softmax loss become more discriminative, hence significantly boosting the performance on a variety of visual classification and verification tasks.

研究の動機と目的

  • CNN における標準の softmax を超えた、より識別的な特徴の必要性を動機づける。
  • 角度空間においてクラス内の緊密性とクラス間の分離を強制する、一般化された large-margin softmax loss を提案する。
  • L-Softmax は標準の SGD で最適化可能であり、softmax のドロップイン置換になりうることを示す。
  • 広範な実験を通じて、画像分類と顔検証の改善を示す。

提案手法

  • クラススコアを f_j = W_j^T x_i と表現し、f_j = ||W_j|| ||x_i|| cos(theta_j) と解釈する。
  • 角度マージン m を符号化する ψ(theta_yi) に cos(theta_yi) を置換してマージンを定義する(0 ≤ θ ≤ π/m に対して ψ(θ) = cos(mθ)、その後は単調に拡張)。
  • 前向き・後向き伝播を可能にする扱いやすい ψ(θ) の定式化を用いる(例: ψ(θ) = (-1)^k cos(mθ) - 2k, θ ∈ [kπ/m, (k+1)π/m])。
  • SGD 更新を可能にする x_i および W_yi に対する勾配を導出する(m ≥ 2 の場合は多項展開による特別な処理を用意)。
  • cos(θ_yi) の実用的なルックアップ手法を提供し、m=2 の具体例として前向き/後向き計算を概説する。

実験結果

リサーチクエスチョン

  • RQ1softmax 目的関数における角度マージンは、CNN特徴のクラス内の圏縮性とクラス間の分離性を改善できるか。
  • RQ2L-Softmax は標準ベンチマークで視覚的分類と検証タスクの双方に具体的な利得をもたらすか。
  • RQ3L-Softmax は標準の SGD 訓練と既存の CNN アーキテクチャに過剰な過学習を伴わずに適合するか。
  • RQ4マージンパラメータ m は識別性と学習難易度にどう影響するか。

主な発見

  • L-Softmax は、より大きな角度マージンとともにより識別的な特徴を生み出し、実験でクラス分離性を向上させる。
  • MNIST では、m=2/3/4 の L-Softmax は softmax やいくつかのベースラインより誤差率が低い(例:MNIST で softmax が 0.40%、m=3 が 0.31% )。
  • Augmentation なしの CIFAR-10 では、m=2/4 の L-Softmax が CIFAR-10 の誤差を 9.05% から 7.58% に改善(m=4)。Augmentation ありでは CIFAR-10+ が 5.92%(m=4)へ低下。
  • CIFAR-100 では、L-Softmax は誤差を 29.53%(m=4)に低減、softmax および他のベースラインの 32.74% へ対して。
  • LFW の顔検証では、L-Softmax は精度を高め、例として CASIA-WebFace を訓練データとして標準評価プロトコルを用いると m=4 で 98.71% など。
  • 本手法は過学習を緩和し、ネットワーク容量とともにスケールする。大きなモデルは L-Softmax 下でさらに性能を向上させる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。