[论文解读] Leveraging Semi-Supervised Learning in Video Sequences for Urban Scene Segmentation.
该论文提出了一种简单而有效的迭代半监督学习框架,利用未标注的视频序列和额外图像来提升城市场景分割性能。通过为未标注数据生成伪标签并迭代微调一个朴素学生模型(Naive-Student),该方法在Cityscapes基准上实现了语义分割、实例分割和全景分割的最先进性能,分别达到67.8%的PQ、42.6%的AP和85.2%的mIOU。
Supervised learning in large discriminative models is a mainstay for modern computer vision. Such an approach necessitates investing in large-scale human-annotated datasets for achieving state-of-the-art results. In turn, the efficacy of supervised learning may be limited by the size of the human annotated dataset. This limitation is particularly notable for image segmentation tasks, where the expense of human annotation is especially large, yet large amounts of unlabeled data may exist. In this work, we ask if we may leverage semi-supervised learning in unlabeled video sequences and extra images to improve the performance on urban scene segmentation, simultaneously tackling semantic, instance, and panoptic segmentation. The goal of this work is to avoid the construction of sophisticated, learned architectures specific to label propagation (e.g., patch matching and optical flow). Instead, we simply predict pseudo-labels for the unlabeled data and train subsequent models with both human-annotated and pseudo-labeled data. The procedure is iterated for several times. As a result, our Naive-Student model, trained with such simple yet effective iterative semi-supervised learning, attains state-of-the-art results at all three Cityscapes benchmarks, reaching the performance of 67.8% PQ, 42.6% AP, and 85.2% mIOU on the test set. We view this work as a notable step towards building a simple procedure to harness unlabeled video sequences and extra images to surpass state-of-the-art performance on core computer vision tasks.
研究动机与目标
- 利用大规模未标注视频序列和额外图像来提升城市场景分割性能。
- 克服在语义分割、实例分割和全景分割任务中人工标注数据集的高成本和可扩展性限制。
- 开发一种简单且与架构无关的方法,避免使用复杂的标签传播机制(如图像块匹配或光流)。
- 在无需专门模型设计的前提下,在Cityscapes基准的语义分割、实例分割和全景分割三个任务上均实现最先进性能。
- 证明通过轻量级学生模型进行迭代伪标签化,可在极少架构创新的前提下超越现有最先进方法。
提出的方法
- 该方法使用在初始人工标注数据集上训练的教师模型,为未标注的视频帧和额外图像生成伪标签。
- 一个学生模型(Naive-Student)以端到端的方式在原始人工标注数据和伪标签化的未标注数据上进行训练。
- 训练过程多次迭代,每次循环中使用经过优化的学生模型生成更新的伪标签。
- 该方法避免使用复杂的标签传播技术(如光流或图像块匹配),转而依赖直接的伪标签生成与模型蒸馏。
- 最终模型在Cityscapes测试集上对所有三项分割任务(全景、实例和语义分割)进行评估。
- 该方法设计简洁且通用,适用于多种分割任务,无需针对特定任务进行架构修改。
实验结果
研究问题
- RQ1未标注的视频序列和额外图像是否可以在不使用复杂标签传播技术的前提下,有效提升城市场景分割性能?
- RQ2使用简单学生模型进行迭代伪标签化,是否能在语义分割、实例分割和全景分割任务中超越现有最先进方法?
- RQ3通过避免使用图像块匹配或光流等技术,仅采用极简架构设计,是否仍可通过迭代半监督学习实现最先进性能?
- RQ4Naive-Student模型在Cityscapes三个基准任务上的性能与先前方法相比如何?
- RQ5伪标签的迭代优化在多大程度上提升了模型的泛化能力和分割精度?
主要发现
- Naive-Student模型在Cityscapes测试集上实现了67.8%的全景分割质量(PQ),创下新最先进纪录。
- 该模型在实例分割任务中达到42.6%的平均精度(AP),超越了先前最先进结果。
- 该方法在语义分割任务中实现85.2%的平均交并比(mIOU),在该基准上创下新最先进纪录。
- 性能提升无需为标签传播设计专用架构(如光流或图像块匹配)。
- 伪标签的迭代优化显著提升了模型在所有三项分割任务中的泛化能力和分割精度。
- 结果表明,一种简单且轻量级的训练流程,可在城市场景分割任务中超越复杂且任务特定的模型。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。