[论文解读] Uses and Abuses of the Cross-Entropy Loss: Case Studies in Modern Deep Learning
本文批评在单纯形值目标上使用交叉熵,并提出基于连续-类别分布的带标签平滑的概率替代(CC-LS)和演员仿真强化学习(CC-AMN),在各任务上呈现混合的实证结果。
Modern deep learning is primarily an experimental science, in which empirical advances occasionally come at the expense of probabilistic rigor. Here we focus on one such example; namely the use of the categorical cross-entropy loss to model data that is not strictly categorical, but rather takes values on the simplex. This practice is standard in neural network architectures with label smoothing and actor-mimic reinforcement learning, amongst others. Drawing on the recently discovered continuous-categorical distribution, we propose probabilistically-inspired alternatives to these models, providing an approach that is more principled and theoretically appealing. Through careful experimentation, including an ablation study, we identify the potential for outperformance in these models, thereby highlighting the importance of a proper probabilistic treatment, as well as illustrating some of the failure modes thereof.
研究动机与目标
- 在目标位于单纯形上而非严格的类别时,激发对概率处理的需求。
- 引入连续-类别(CC) 对数似然作为对单纯形值数据的跨熵的原则性替代。
- 评估 CC-LS 作为 CIFAR-10 标签平滑的替代,以评估正则化与表征学习。
- 评估 CC-AMN 作为跨熵在 Atari 游戏的演员仿真强化学习中的替代。
- 讨论 CC 基于似然在深度学习实践中的含义和局限性。
提出的方法
- 将连续-类别(CC) 分布表述为对数似然的归一化版本,具有一个由特定对数比表达给出的闭式正规化常数 C(λ)。
- 用 CC 对数似然替代跨熵损失:l(λ;y) = -log C(λ) - sum_k y_k log λ_k(方程2)。
- 通过使用单纯形值目标 y^LS 取代 one-hot 标签,将 CC 应用于标签平滑,定义具有 CC 目标的 CC-LS(方程7)。
- 通过将 AMN 训练目标重新表述为 CC-AMN(方程11),将 CC 应用于演员仿真强化学习。
- 进行消融研究并对正则化项进行消融,以在不同的 BatchNorm、 dropout 和权重衰减设置下比较 LS、CC-LS 与 基线。
- 评估 CC 正规化常数的数值稳定性和可扩展性局限,特别是对于较大的 K。
实验结果
研究问题
- RQ1在用 CC 对数似然替代跨熵后,是否能改善标签平滑中的正则化或表征学习?
- RQ2CC-LS 能否在常见的 CNN 正则化体系中优于原生标签平滑?
- RQ3CC-AMN 是否能在多任务强化学习设置中提供相对于标准 AMN 的优势,及其失败模式是什么?
主要发现
- 在没有正则化的 CIFAR-10 的 CNN 上,CC-LS 明显优于 LS 和基线,而 BatchNorm 可能抵消两者的增益。
- CC-LS 提供了与普通 LS 不同的正则化效应,尤其在没有批标准化时能获得更丰富的学习表示。
- CC-AMN 在大多数 Atari 游戏上的表现与 AMN 相近,但在 Pong 上由于在接近均匀 λ 的正规化常数引发数值问题,表现不佳且不稳定。
- 在消融中,CC-LS 在没有 BatchNorm 的情况下显示增益,并且在没有 BatchNorm 的权重衰减条件下可降低测试准确度的方差。
- CC-LS 与 CC-AMN 共同的洞察是,对单纯形值目标的概率解释可以带来好处,尽管架构和初始化依然重要。
- CC-AMN 显示一个显著的失效模式,与当 λ 接近均匀时的数值不稳定性相关,凸显高维单纯形目标的实际挑战。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。