[论文解读] Regularizing Neural Networks by Penalizing Confident Output Distributions
本文提出一种置信惩罚,用于惩罚低熵输出分布,将其与标签平滑联系起来,并在不改变超参数的情况下,展示其在多个基准上提升泛化性能。
We systematically explore regularizing neural networks by penalizing low entropy output distributions. We show that penalizing low entropy output distributions, which has been shown to improve exploration in reinforcement learning, acts as a strong regularizer in supervised learning. Furthermore, we connect a maximum entropy based confidence penalty to label smoothing through the direction of the KL divergence. We exhaustively evaluate the proposed confidence penalty and label smoothing on 6 common benchmarks: image classification (MNIST and Cifar-10), language modeling (Penn Treebank), machine translation (WMT'14 English-to-German), and speech recognition (TIMIT and WSJ). We find that both label smoothing and the confidence penalty improve state-of-the-art models across benchmarks without modifying existing hyperparameters, suggesting the wide applicability of these regularizers.
研究动机与目标
- 将基于输出的正则化作为对权重和激活基方法的补充进行动机阐述。
- 在大规模神经网络上评估基于最大熵的置信惩罚。
- 通过 KL 散度将置信惩罚与标签平滑联系起来。
- 证明在多种基准上无需超参数调整即可适用。
提出的方法
- 定义一个损失函数,包含负对数似然项以及对模型输出分布的 beta 加权熵惩罚。
- 对 logits 计算熵梯度以实现该惩罚。
- 可选择对惩罚进行退火,或在收敛附近应用基于铰链的熵阈值来收紧正则化。
- 证明该惩罚通过反转 KL 散度方向与标签平滑相关。
- 在多个数据集和模型类型上评估置信惩罚与标签平滑。
实验结果
研究问题
- RQ1惩罚低熵输出分布是否能够改善监督学习的泛化能力?
- RQ2在各种任务中,置信惩罚与标签平滑的对比如何?
- RQ3在不改变超参数的情况下,这些输出正则化是否能提升到现有的最先进模型?
- RQ4最大熵惩罚与现有正则化方法(如标签平滑)之间的联系是什么?
主要发现
- 置信惩罚和标签平滑在 MNIST、CIFAR-10、Penn Treebank、WMT’14 English–German、TIMIT 和 WSJ 上都提升了最先进模型。
- 语言建模实验显示置信惩罚在困惑度上取得显著提升(例如在 PTB 上比基线提升 3.7 困惑度点)。
- 在机器翻译中,标签平滑在 BLEU 指标上略优于置信惩罚,两者在未使用 dropout 时均有提升(约 1 个 BLEU 点)。
- 在 WSJ 上,单gram 标签平滑在所测试的正则化方法中实现了最佳的 WER 提升(11.0 ± 0.35),置信惩罚将 WER 提升至 12.7,基线在验证集为 17.2。
- 在各任务中,这些输出正则化在不修改现有超参数的情况下提升性能。
- 相比 dropout,标签平滑和置信惩罚的梯度范数往往更小,表明输出分布更平滑、泛化能力更好。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。