[论文解读] The Lovász-Softmax loss: A tractable surrogate for the optimization of the intersection-over-union measure in neural networks
本文提出Lovász-Softmax损失,一种可微分的凸代理损失,用于交并比(IoU)度量,使神经网络在语义图像分割中可直接优化Jaccard指数。通过利用子模损失的Lovász扩展,该方法在不改变网络结构的前提下,在Pascal VOC和Cityscapes数据集上实现了SOTA的mIoU性能提升,优于标准交叉熵训练方法。
The Jaccard index, also referred to as the intersection-over-union score, is commonly employed in the evaluation of image segmentation results given its perceptual qualities, scale invariance - which lends appropriate relevance to small objects, and appropriate counting of false negatives, in comparison to per-pixel losses. We present a method for direct optimization of the mean intersection-over-union loss in neural networks, in the context of semantic image segmentation, based on the convex Lovász extension of submodular losses. The loss is shown to perform better with respect to the Jaccard index measure than the traditionally used cross-entropy loss. We show quantitative and qualitative differences between optimizing the Jaccard index per image versus optimizing the Jaccard index taken over an entire dataset. We evaluate the impact of our method in a semantic segmentation pipeline and show substantially improved intersection-over-union segmentation scores on the Pascal VOC and Cityscapes datasets using state-of-the-art deep learning segmentation architectures.
研究动机与目标
- 解决语义分割中训练损失(交叉熵)与评估指标(IoU)之间的不一致问题。
- 实现在深度神经网络中端到端、即插即用的Jaccard指数(IoU)优化。
- 克服先前方法依赖采样、近似或间接优化IoU的局限性。
- 证明通过凸代理直接优化IoU可为标准基准带来一致的性能提升。
提出的方法
- 该方法利用Lovász扩展,构建子模Jaccard损失的分段线性、凸代理损失,实现可微分优化。
- 通过将每类视为二值分割问题,将Lovász-Softmax扩展应用于多分类分割。
- 损失通过基于排序的算法计算,利用Lovász铰链公式高效计算次梯度。
- 该方法支持每张图像和全局IoU优化,可通过等批量采样对类别进行加权。
- 损失作为即插即用的模块层集成到标准分割架构中,无需修改网络结构即可替代交叉熵损失。
- 该方法使用PyTorch实现,并在GitHub上公开,以确保可复现性。
实验结果
研究问题
- RQ1是否可以在深度学习框架中,通过可微分的凸代理损失,直接优化Jaccard指数?
- RQ2在训练过程中优化IoU是否能带来优于交叉熵优化的分割性能?
- RQ3与全局IoU优化相比,每张图像IoU优化在mIoU和感知质量方面表现如何?
- RQ4Lovász-Softmax损失是否可应用于无需修改网络结构的SOTA分割模型?
- RQ5该方法是否能提升小物体和类别不平衡数据集上的性能?
主要发现
- 在Pascal VOC数据集上,使用交叉熵预训练的模型经Lovász-Softmax微调后,mIoU从68.7±1.2提升至72.5±1.2,显著优于性能下降的贝叶斯方法。
- 在Cityscapes数据集上,使用Lovász-Softmax微调ENet模型后,类别IoU从58.29%提升至63.06%,显著减少误报并改善边界细节。
- 该方法在多种架构(包括DeepLab和ENet)上均实现了稳定的mIoU提升,且无需修改网络结构或数据增强策略。
- 等批量训练提升了泛化能力,尤其在Pascal VOC等类别不平衡数据集上表现更优,但在更均匀的Cityscapes数据集上未见显著提升。
- 通过直接优化目标度量,该方法减少了先前方法中常见的预测校准不足问题,实现了更可靠的预测结果。
- 代码已公开,支持可复现性,并可轻松集成至现有分割流水线中。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。