[论文解读] Training Deep Neural Networks via Direct Loss Minimization
本文提出了一种直接损失最小化框架,用于通过优化应用特定的、不可微的损失函数(如平均精度(AP))来训练深度神经网络,这些损失函数通常不适用于标准的基于梯度的方法。该方法通过一种新颖的动态规划算法将McAllester等人(2010)的工作扩展至非线性模型,以计算梯度,从而实现端到端训练,其性能优于代理损失基线方法——尤其在动作分类和目标检测任务中存在标签噪声时表现更优。
Supervised training of deep neural nets typically relies on minimizing cross-entropy. However, in many domains, we are interested in performing well on metrics specific to the application. In this paper we propose a direct loss minimization approach to train deep neural networks, which provably minimizes the application-specific loss function. This is often non-trivial, since these functions are neither smooth nor decomposable and thus are not amenable to optimization with standard gradient-based methods. We demonstrate the effectiveness of our approach in the context of maximizing average precision for ranking problems. Towards this goal, we develop a novel dynamic programming algorithm that can efficiently compute the weight updates. Our approach proves superior to a variety of baselines in the context of action classification and object detection, especially in the presence of label noise.
研究动机与目标
- 为解决标准深度学习训练的局限性,即依赖于与应用特定指标(如平均精度(AP))不一致的可微代理损失(如交叉熵)的问题。
- 开发一种方法,通过将理论梯度计算扩展至非线性模型,直接最小化非平滑、不可分解的损失函数——这类损失函数在排序和结构化预测任务中很常见。
- 通过使用真实任务损失实现深度神经网络的端到端训练,提升在真实世界应用中对标签噪声的鲁棒性。
- 在复杂的真实世界任务(如动作分类和目标检测)中展示直接损失最小化的有效性,这些任务在存在噪声监督时,标准代理损失方法会失效。
提出的方法
- 通过推导非可微任务损失相对于网络参数的梯度,将McAllester等人(2010)关于线性模型梯度计算的定理扩展至非线性深度神经网络。
- 提出一种新颖的动态规划算法,以高效计算任务损失(如AP)相对于网络权重的梯度,从而克服损失函数的非平滑性和不可分解性。
- 通过温度控制的softmax对不可微损失函数进行可微近似,以支持反向传播,同时保留原始指标的结构。
- 在随机优化中应用计算出的梯度,以最小化期望任务损失,直接针对排序和检测中的AP等指标进行优化。
- 采用AP的小批量近似方法,使目标检测中的训练成为可能,因为在高框数情况下,全批量AP计算是不可行的。
- 使用一种改进的评分函数,结合模型得分和任务损失,以引导优化过程朝向最小化实际应用指标的配置。
实验结果
研究问题
- RQ1我们能否在深度神经网络中直接最小化不可微、不可分解的损失函数(如平均精度),从而绕过代理损失?
- RQ2在非线性模型中,如何针对神经网络参数计算非平滑、离散损失函数的梯度?
- RQ3直接优化应用特定损失(如AP)是否能带来比代理损失训练更好的泛化性能,尤其是在存在标签噪声的情况下?
- RQ4所提出的基于动态规划的梯度计算方法能否高效扩展至大规模视觉任务(如包含数千个边界框的目标检测)?
- RQ5在性能和对噪声标签的鲁棒性方面,直接损失最小化与结构化SVM及交叉熵训练相比如何?
主要发现
- 所提出的直接损失最小化方法在动作分类任务中优于交叉熵和合页损失基线,平均AP达到48.5%,高于交叉熵的45.6%和合页-AP的47.6%(在干净标签下)。
- 在存在20%标签噪声的目标检测任务中,直接AP最小化(pos-AP)实现了40.3%的平均AP,显著优于合页-AP基线(完全失效,平均AP为0.0%)。
- pos-AP方法在噪声环境下保持了强性能,平均AP从干净设置到噪声设置仅下降10.2%,而合页-AP在相同噪声下完全崩溃。
- 该方法对标签噪声表现出更优的鲁棒性:在目标检测中,pos-AP在噪声条件下的性能保持为干净标签性能的85.5%,而合页-AP仅为0%。
- 动态规划算法实现了对不可分解损失的高效梯度计算,使在深度网络中直接优化AP成为可能。
- 在动作分类任务中,直接损失方法实现了48.5%的平均AP,比最强基线(合页-AP)高出0.9个百分点,证明了在指标优化训练中的一致性优势。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。