QUICK REVIEW

[论文解读] LabelBank: Revisiting Global Perspectives for Semantic Segmentation

Hexiang Hu, Zhiwei Deng|arXiv (Cornell University)|Mar 29, 2017

Domain Adaptation and Few-Shot Learning参考文献 33被引用 18

一句话总结

本文提出 LabelBank，一种整体图像表征方法，通过编码潜在目标类别置信度分数来改进语义分割，以过滤误报像素预测。通过使用通用框架整合来自视觉、属性或文本源的全局上下文信息，该方法在 PASCAL-Context 和 ADE20K 数据集上提升了最先进网络的性能，mIoU 提升最高达 63.61%（在理想 LabelBank 条件下）。

ABSTRACT

Semantic segmentation requires a detailed labeling of image pixels by object category. Information derived from local image patches is necessary to describe the detailed shape of individual objects. However, this information is ambiguous and can result in noisy labels. Global inference of image content can instead capture the general semantic concepts present. We advocate that holistic inference of image concepts provides valuable information for detailed pixel labeling. We propose a generic framework to leverage holistic information in the form of a LabelBank for pixel-level segmentation. We show the ability of our framework to improve semantic segmentation performance in a variety of settings. We learn models for extracting a holistic LabelBank from visual cues, attributes, and/or textual descriptions. We demonstrate improvements in semantic segmentation accuracy on standard datasets across a range of state-of-the-art segmentation architectures and holistic inference approaches.

研究动机与目标

通过整合全局场景理解，解决语义分割中噪声大、模糊的低层次像素预测问题。
克服纯局部卷积神经网络方法因局部模糊性而难以实现细粒度分割的局限性。
开发一种可泛化的框架，统一整体图像理解（LabelBank）与详细像素级分割。
证明 LabelBank 在无需修改分割网络架构的前提下，可跨多种数据源（视觉、基于属性、文本）实现有效性。
提供一种灵活的、端到端可训练的系统，通过 LabelBank 置信度分数引导的整体过滤机制提升分割准确性。

提出的方法

提出 LabelBank 作为类别置信度分数的连续向量，表示每种类别在图像中出现的可能性。
设计一种整体过滤机制，对 LabelBank 中置信度较低的类别，抑制其误报像素预测。
训练一个统一的神经网络框架，通过端到端反向传播联合优化 LabelBank 推断与语义分割。
支持多种 LabelBank 推断来源：视觉特征（如全局图像嵌入）、属性或文本描述（如图像标题）。
将 LabelBank 引导的过滤模块集成到 FCN 和 DilatedNet 等现有分割架构中，无需修改其主干网络。
使用可微损失函数训练整个流程，实现分割与 LabelBank 预测的联合优化。

实验结果

研究问题

RQ1整体图像内容表征（LabelBank）能否提升像素级语义分割的准确性？
RQ2当与基于局部 CNN 的分割方法结合时，LabelBank 在减少误报预测方面的有效性如何？
RQ3在理想 LabelBank 推断条件下，性能提升的上限是多少？
RQ4LabelBank 推断的精确率与召回率如何影响最终分割性能？
RQ5LabelBank 框架能否在不同模态数据（视觉、文本、基于属性）和分割架构之间实现泛化？

主要发现

所提框架在 PASCAL-Context 和 ADE20K 上取得显著性能提升，理想 LabelBank 条件下 mIoU 达到 63.61%。
理想 LabelBank 条件（完美推断）表明，该框架可实现接近最优的性能，说明通过更优的 LabelBank 推断仍有巨大提升空间。
实证分析显示，LabelBank 中真实类别召回率对分割准确率的影响强于精确率，表明遗漏真实类别比引入错误类别更具破坏性。
即使 LabelBank 推断不完美（如在 PASCAL-Context 上精确率为 46.75%），该框架仍优于基线模型。
整体过滤机制能有效减少误报——例如，当 LabelBank 未提示存在自行车时，可成功移除相关像素预测。
该框架具有通用性，可无缝集成到多种最先进分割网络（包括 FCN 和 DilatedNet）中，且无需修改网络架构。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。