QUICK REVIEW

[论文解读] Improving Semantic Segmentation via Video Propagation and Label Relaxation

Yi Zhu, Karan Sapra|arXiv (Cornell University)|Dec 4, 2018

Advanced Neural Network Applications参考文献 46被引用 37

一句话总结

本文提出一种基于视频预测的数据增强方法，用于语义分割，通过联合图像-标签传播合成新的训练样本，并引入边界标签松弛技术以减少传播伪影带来的噪声，从而提升模型精度。该方法在不使用集成模型的情况下，仅用单一模型即在Cityscapes、CamVid和KITTI数据集上取得了SOTA的mIoU分数，分别为83.5%、82.9%和72.8%。

ABSTRACT

Semantic segmentation requires large amounts of pixel-wise annotations to learn accurate models. In this paper, we present a video prediction-based methodology to scale up training sets by synthesizing new training samples in order to improve the accuracy of semantic segmentation networks. We exploit video prediction models' ability to predict future frames in order to also predict future labels. A joint propagation strategy is also proposed to alleviate mis-alignments in synthesized samples. We demonstrate that training segmentation models on datasets augmented by the synthesized samples leads to significant improvements in accuracy. Furthermore, we introduce a novel boundary label relaxation technique that makes training robust to annotation noise and propagation artifacts along object boundaries. Our proposed methods achieve state-of-the-art mIoUs of 83.5% on Cityscapes and 82.9% on CamVid. Our single model, without model ensembles, achieves 72.8% mIoU on the KITTI semantic segmentation test set, which surpasses the winning entry of the ROB challenge 2018. Our code and videos can be found at https://nv-adlr.github.io/publication/2018-Segmentation.

研究动机与目标

通过高效扩展训练数据，解决语义分割中密集像素级标注的高成本与标注难度问题。
减少由视频预测伪影引起的合成训练样本中的错位与噪声，尤其是在物体边界区域。
通过引入边界标签松弛技术，建模标签传播中的不确定性，从而提升模型的鲁棒性与精度。
证明基于视频预测的合成方法优于传统的光流法传播以及仅使用人工标注数据的方法。
在主要基准上实现SOTA性能，且仅使用单一模型，避免依赖模型集成。

提出的方法

利用训练好的视频预测模型，将图像及其对应的语义标签同时向前时间传播，生成新的合成图像-标签对。
提出联合图像-标签传播（JP），即使用同一模型同时传播图像与标签，以保持空间对齐。
通过最大化边界附近邻近类别概率的联合可能性，实现标签松弛，降低在噪声传播标签中的过度置信度。
使用相同的视频预测模型进行多步未来时间的传播，以通过多步传播扩展训练集。
在真实数据与合成数据的组合上训练分割模型，并在训练过程中应用松弛技术以提升鲁棒性。
在测试集上采用多尺度推理策略，进一步提升性能，尤其在Kitti等较小数据集上效果显著。

实验结果

研究问题

RQ1能否有效利用视频预测模型，为语义分割的数据增强生成高质量且对齐的图像-标签对？
RQ2与独立传播图像和标签相比，联合图像-标签传播是否能减少错位伪影？
RQ3边界标签松弛技术是否能提升模型对合成数据中标注噪声与传播错误的鲁棒性？
RQ4与现有SOTA方法相比，该方法在基准数据集上的分割精度提升程度如何？
RQ5使用该方法训练的单一模型是否能在Kitti等挑战性基准上超越基于集成的模型？

主要发现

所提方法在Cityscapes验证集上实现了SOTA的83.5% mIoU，优于先前方法。
在CamVid数据集上，单尺度评估mIoU达到81.7%，多尺度评估达到82.9%，显著优于此前SOTA方法。
在KITTI基准上，该方法以单一模型实现72.8% mIoU，超越了2018年ROB挑战赛冠军（使用五模型集成）的性能。
消融实验表明，若移除增强数据与标签松弛，CamVid上的mIoU将下降1.9%，证实了两个组件的有效性。
边界标签松弛技术使更长距离的传播成为可能且不引起性能下降，同时提升了精度与鲁棒性。
该方法在分割性能上优于基于光流的传播基线，证明了视频预测模型在数据合成中的优越性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。