QUICK REVIEW

[論文レビュー] Regularizing Neural Networks by Penalizing Confident Output Distributions

Gabriel Pereyra, George Tucker|arXiv (Cornell University)|Jan 23, 2017

Adversarial Robustness in Machine Learning被引用数 403

ひとこと要約

この論文は、低エントロピーの出力分布をペナルティ化する信頼度ペナルティを導入し、それをラベル平滑化に結びつけ、ハイパーパラメータを変更せずに複数のベンチマークで一般化性能を向上させることを示します。

ABSTRACT

We systematically explore regularizing neural networks by penalizing low entropy output distributions. We show that penalizing low entropy output distributions, which has been shown to improve exploration in reinforcement learning, acts as a strong regularizer in supervised learning. Furthermore, we connect a maximum entropy based confidence penalty to label smoothing through the direction of the KL divergence. We exhaustively evaluate the proposed confidence penalty and label smoothing on 6 common benchmarks: image classification (MNIST and Cifar-10), language modeling (Penn Treebank), machine translation (WMT'14 English-to-German), and speech recognition (TIMIT and WSJ). We find that both label smoothing and the confidence penalty improve state-of-the-art models across benchmarks without modifying existing hyperparameters, suggesting the wide applicability of these regularizers.

研究の動機と目的

出力ベースの正則化を、重み・活性化ベースの手法の補完として動機づける。
大規模ニューラルネットワークに対して最大エントロピーに基づく信頼度ペナルティを評価する。
KLダイバージェンスを介して信頼度ペナルティをラベル平滑化に関連づける。
ハイパーパラメータ調整を行わず、多様なベンチマークで適用可能性を示す。

提案手法

負の対数尤度項とモデル出力分布のエントロピーペナルティをβ倍で加えた損失を定義する。
ペナルティを実装するためにロジットに対するエントロピーの勾配を計算する。
収束近傍で正則化を強化するためにペナルティをアニーリングしたり、エントロピー閾値にヒンジを適用することができる。
KLダイバージェンスの方向を反転させることにより、ペナルティがラベル平滑化と関連していることを示す。
複数のデータセットとモデルタイプに対して、信頼度ペナルティとラベル平滑化の両方を評価する。

実験結果

リサーチクエスチョン

RQ1低エントロピー出力分布のペナルティ化は supervisd 学習における一般化を改善するか？
RQ2信頼度ペナルティは多様なタスクでラベル平滑化とどう比較されるか？
RQ3ハイパーパラメータを変更せずに、これらの出力正則化子は最先端モデルを改善できるか？
RQ4最大エントロピーペナルティと既存の正則化手法（例：ラベル平滑化）との関係は何か？

主な発見

信頼度ペナルティとラベル平滑化は、MNIST、CIFAR-10、Penn Treebank、WMT’14 English–German、TIMIT、WSJの最先端モデルを向上させる。
言語モデリングの実験では、信頼度ペナルティが基準より顕著な困惑度の改善を達成（例: PTBでベースラインより3.7困惑度ポイント）を示す。
機械翻訳では、ラベル平滑化が信頼度ペナルティを若干上回るBLEUを示す一方、両方ともドロップアウトを使用しない場合に利得がある（約1BLEUポイント）。
WSJでは、テスト済み正則化子の中で unigram ラベル平滑化が最も良いWER改善を示す（11.0 ± 0.35）、信頼度ペナルティは検証でWERを12.7に改善、ベースラインは17.2。
タスク全体で、これらの出力正則化は既存のハイパーパラメータを変更せずに性能を向上させる。
勾配ノルムは、ドロップアウトよりラベル平滑化と信頼度ペナルティで小さくなる傾向があり、より滑らかで良い一般化出力分布を示唆する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。