QUICK REVIEW

[论文解读] Frame-To-Frame Consistent Semantic Segmentation

Manuel Rebol, Patrick Knöbelreiter|arXiv (Cornell University)|Aug 3, 2020

Advanced Neural Network Applications参考文献 31被引用 4

一句话总结

该论文提出了一种基于视频的语义分割方法，通过在帧间集成ConvLSTM进行特征传播，并引入一种新颖的不一致性损失，从而提升时序一致性和准确性。在Cityscapes数据集上，该方法将mIoU从单帧推理的45.2%提升至57.9%，与之相比，帧间不一致性降低了71.1%。

ABSTRACT

In this work, we aim for temporally consistent semantic segmentation throughout frames in a video. Many semantic segmentation algorithms process images individually which leads to an inconsistent scene interpretation due to illumination changes, occlusions and other variations over time. To achieve a temporally consistent prediction, we train a convolutional neural network (CNN) which propagates features through consecutive frames in a video using a convolutional long short term memory (ConvLSTM) cell. Besides the temporal feature propagation, we penalize inconsistencies in our loss function. We show in our experiments that the performance improves when utilizing video information compared to single frame prediction. The mean intersection over union (mIoU) metric on the Cityscapes validation set increases from 45.2 % for the single frames to 57.9 % for video data after implementing the ConvLSTM to propagate features trough time on the ESPNet. Most importantly, inconsistency decreases from 4.5 % to 1.3 % which is a reduction by 71.1 %. Our results indicate that the added temporal information produces a frame-to-frame consistent and more accurate image understanding compared to single frame processing. Code and videos are available at https://github.com/mrebol/f2f-consistent-semantic-segmentation

研究动机与目标

解决由于光照变化、遮挡和运动导致的视频帧间语义分割时序不一致问题。
在不依赖未来帧信息的前提下，提升视频序列中预测的准确性和一致性。
通过利用现有的单帧CNN，实现适用于机器人和自动驾驶车辆的实时、轻量化语义分割。
通过添加循环时序建模，开发一种可推广至任意预训练单帧CNN架构的方法。
通过利用Carla模拟器生成的合成数据来扩充训练数据，从而最小化人工标注的工作量。

提出的方法

将ConvLSTM层集成到ESPNet架构中，以将过去帧的高层特征传播到当前帧。
在ConvLSTM单元内使用标准卷积操作，并将其置于L1b层，以传播来自更深层、高层级表征的特征。
设计一种基于连续帧预测之间平方差的新型不一致性损失函数，以惩罚时序差异。
使用加权交叉熵损失进行分类优化，并采用超参数化的不一致性损失，其中λincons = 10，以平衡准确性和一致性。
分阶段进行模型训练：首先仅微调LSTM参数，然后联合训练所有参数，结合数据增强和合成数据。
利用预训练的Xception模型为Carla模拟器生成的合成视频数据生成准确的伪标签，以降低标注成本。

实验结果

研究问题

RQ1通过引入来自过去帧的循环特征传播，是否能显著改善语义分割的时序一致性？
RQ2ConvLSTM层的放置位置和类型如何影响视频语义分割中的性能和一致性？
RQ3所提出的不一致性损失函数在不降低分类准确性的前提下，能在多大程度上减少帧间预测差异？
RQ4该方法是否可泛化至不同CNN架构（如ESPNet和自定义SSNet），而无需进行架构重新设计？
RQ5来自Carla模拟器的合成数据在提升模型泛化能力和一致性方面有多有效？

主要发现

所提方法将Cityscapes验证集上的mIoU从单帧ESPNet的45.2%提升至使用视频数据结合ConvLSTM与不一致性损失后的57.9%。
时序不一致性从4.5%降至1.3%，即降低了71.1%，表明帧间一致性的显著提升。
在ConvLSTM中使用标准卷积优于深度可分离卷积，尤其在结合参数化ReLU激活函数时表现更优。
将ConvLSTM置于L1b层（高层特征）时性能更优，相较于更早或更晚的层，表明高层特征对时序一致性更具优势。
当λincons = 10时，不一致性损失实现了准确性和一致性的良好权衡，定性结果表明分割闪烁现象明显减少。
将真实Cityscapes数据与Carla模拟器生成的合成视频数据结合，可进一步提升一致性和泛化能力，但主要性能增益仍来自时序建模组件。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。