QUICK REVIEW

[論文レビュー] Noisy Softmax: Improving the Generalization Ability of DCNN via Postponing the Early Softmax Saturation

Binghui Chen, Weihong Deng|arXiv (Cornell University)|Aug 12, 2017

Advanced Neural Network Applications参考文献 36被引用数 30

ひとこと要約

この論文では、深層畳み込みニューラルネットワーク（DCNN）における勾配の流れを妨げる早期のソフトマックス飽和を遅らせるために、訓練中に緩和されたノイズをソフトマックス層に注入する手法、Noisy Softmaxを提案する。実験的に、MNIST、CIFAR、LFW、FGLFW、YTFのベンチマークで、モデルのロバスト性を向上させ、過学習を軽減することで、最先端または競争力のある性能を達成している。

ABSTRACT

Over the past few years, softmax and SGD have become a commonly used component and the default training strategy in CNN frameworks, respectively. However, when optimizing CNNs with SGD, the saturation behavior behind softmax always gives us an illusion of training well and then is omitted. In this paper, we first emphasize that the early saturation behavior of softmax will impede the exploration of SGD, which sometimes is a reason for model converging at a bad local-minima, then propose Noisy Softmax to mitigating this early saturation issue by injecting annealed noise in softmax during each iteration. This operation based on noise injection aims at postponing the early saturation and further bringing continuous gradients propagation so as to significantly encourage SGD solver to be more exploratory and help to find a better local-minima. This paper empirically verifies the superiority of the early softmax desaturation, and our method indeed improves the generalization ability of CNN model by regularization. We experimentally find that this early desaturation helps optimization in many tasks, yielding state-of-the-art or competitive results on several popular benchmark datasets.

研究の動機と目的

勾配の流れを制限し、SGDのパラメータ空間探索を妨げるDCNNにおける早期のソフトマックス飽和問題を解決すること。
飽和の遅延とバックプロパゲーション中の連続的パラメータ更新を可能にすることで、モデルの一般化性能を向上させること。
アーキテクチャの変更なしに、シンプルで即座に適用可能な手法を導入すること。
早期の脱飽和がより良い収束と過学習の低減に寄与することを実験的に検証すること。

提案手法

各訓練イテレーション中に、ソフトマックス層の入力に緩和されたノイズを直接注入する。
時間の経過とともに減少する（緩和する）ノイズスケジュールを用いることで、訓練の安定性を確保し、後期段階での干渉を回避する。
標準的なSGDとバックプロパゲーションとの互換性を維持するために、ソフトマックス層のみを変更する。
任意のDCNNフレームワークにおいて、標準的なソフトマックスの即座な置き換えとしてこの手法を適用可能にする。
ノイズの大きさを制御するハイパーパrameter α²を導入し、最適なパフォーマンスを得るための調整を可能にする。
データオーグメンテーションやコントラスト損失といった既存の技術と組み合わせることで、さらなる性能向上を実現する。

実験結果

リサーチクエスチョン

RQ1早期のソフトマックス飽和は、SGDがパラメータ空間を効果的に探索する能力を阻害するか？
RQ2ソフトマックス入力に緩和されたノイズを注入することで、飽和の遅延と勾配伝搬の改善が可能か？
RQ3Noisy SoftmaxはDCNNにおける一般化性能の向上と過学習の低減に寄与するか？
RQ4アーキテクチャの変更なしに、Noisy Softmaxは標準ベンチマークで最先端の性能を達成できるか？

主な発見

α² = 0.05 で Noisy Softmax を使用した場合、CIFAR-10 で 7.39% の誤差率を達成し、標準的なソフトマックス（8.11%）や他の最先端手法を上回った。
LFW では、Noisy Softmax（α² = 0.1）が 99.18% の正確度を達成し、ベースラインを上回り、最先端の性能に並んだ。
YTF では、Noisy Softmax（α² = 0.1）が 94.88% の正確度を達成し、標準的なソフトマックスベースライン（94.22%）を上回った。
2つのNoisy Softmaxモデルをアンサンブル化した場合、LFWで99.31%、FGLFWで94.43%、YTFで95.37%の正確度を達成し、優れた一般化性能を示した。
MNIST や CIFAR-100 を含む複数のデータセットで一貫して性能向上が確認され、本手法の広範な有効性が裏付けられた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。