QUICK REVIEW

[論文レビュー] Regularizing Neural Networks by Penalizing Confident Output Distributions

Gabriel Pereyra, George Tucker|arXiv (Cornell University)|Jan 23, 2017

Adversarial Robustness in Machine Learning被引用数 379

ひとこと要約

本論文は、信頼度ペナルティ（最大エントロピー正則化）とラベル平滑化をニューラルネットワークの出力正則化として提案し、ハイパーパラメータを変更せずに複数のベンチマークで汎化性能を改善することを示す。

ABSTRACT

We systematically explore regularizing neural networks by penalizing low entropy output distributions. We show that penalizing low entropy output distributions, which has been shown to improve exploration in reinforcement learning, acts as a strong regularizer in supervised learning. Furthermore, we connect a maximum entropy based confidence penalty to label smoothing through the direction of the KL divergence. We exhaustively evaluate the proposed confidence penalty and label smoothing on 6 common benchmarks: image classification (MNIST and Cifar-10), language modeling (Penn Treebank), machine translation (WMT'14 English-to-German), and speech recognition (TIMIT and WSJ). We find that both label smoothing and the confidence penalty improve state-of-the-art models across benchmarks without modifying existing hyperparameters, suggesting the wide applicability of these regularizers.

研究の動機と目的

activations や weights とは別の、モデルの出力分布を正則化することを正則化の別の形として動機づける。
監督付き学習における一般化を最大エントロピーベースの信頼度ペナルティがどう影響するかを評価する。
出力正則化をラベル平滑化と比較し、ハイパーパラメータを変更せずに多様なベンチマークへ適用可能性を評価する。

提案手法

信頼度ペナルティを用いた損失を定義する: L(θ) = - sum log pθ(y|x) - β H(pθ(y|x)).
出力分布のエントロピー H(pθ(y|x)) を計算し、ロジットに対する勾配を導出する。
エントロピーがある閾値以下の場合のみペナルティを適用するよう、ペナルティをアニーリングするかヒンジ閾値を適用する。
KL 発散を介して信頼度ペナルティをラベル平滑化と結びつける; 平滑化を KL(u || pθ) と解釈し、ペナルティを KL(pθ || u) と解釄する。
複数のタスクにわたって、均一なラベル平滑化と unigram ラベル平滑化、そして信頼度ペナルティを実験的に比較する。

実験結果

リサーチクエスチョン

RQ1自信過剰（低エントロピー）な出力分布をペナルティ付けすることは、 supervised 学習における一般化を改善するか。
RQ2信頼度ペナルティは多様なベンチマークにおいてラベル平滑化とどのように比較されるか。
RQ3既存のハイパーパラメータを変更せずに、これらの出力正則化子はタスク間で有効か。
RQ4最大エントロピーペナルティとラベル平滑化の理論と実践上の関係は何か。
RQ5アニーリングや閾値処理といった実用的配慮が学習ダイナミクスに影響するか。

主な発見

ラベル平滑化と信頼度ペナルティの両方が、ハイパーパラメータ変更なしで最先端モデルを複数ベンチマークで改善する。
MNIST, CIFAR-10, Penn Treebank, WMT’14 English-German, TIMIT, WSJ で、正則化子は一貫した一般化向上をもたらす。
言語モデルでは信頼度ペナルティがラベルノイズおよびラベル平滑化より優れており、PTB での perplexity が大幅に改善される。
機械翻訳ではラベル平滑化が信頼度ペナルティよりわずかに優れており、いくつかの設定で約1 BLEUポイントの利得が得られる。
音声認識では unigram ラベル平滑化が最良の WER 改善を提供し、ベースラインや他の正則化子より顕著な低減を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。