[论文解读] Grid Saliency for Context Explanations of Semantic Segmentation
本文提出网格显著性(grid saliency),一种基于扰动的方法,通过识别为保持目标物体区域预测而必需的最小未扰动图像区域,为语义分割模型生成空间一致的解释。该方法通过解耦物体与上下文影响,实现上下文解释,展示了对合成数据集和Cityscapes数据集中人工及真实世界上下文偏差的高敏感性与精确定位能力。
Recently, there has been a growing interest in developing saliency methods that provide visual explanations of network predictions. Still, the usability of existing methods is limited to image classification models. To overcome this limitation, we extend the existing approaches to generate grid saliencies, which provide spatially coherent visual explanations for (pixel-level) dense prediction networks. As the proposed grid saliency allows to spatially disentangle the object and its context, we specifically explore its potential to produce context explanations for semantic segmentation networks, discovering which context most influences the class predictions inside a target object area. We investigate the effectiveness of grid saliency on a synthetic dataset with an artificially induced bias between objects and their context as well as on the real-world Cityscapes dataset using state-of-the-art segmentation networks. Our results show that grid saliency can be successfully used to provide easily interpretable context explanations and, moreover, can be employed for detecting and localizing contextual biases present in the data.
研究动机与目标
- 将显著性方法从先前局限于图像分类的任务,拓展至语义分割等密集预测任务。
- 开发一种方法,生成空间一致且可解耦的解释,以区分预测中物体与上下文的影响。
- 探究显著性方法是否能够检测并定位训练数据中存在的上下文偏差。
- 构建一个具有受控上下文偏差的合成基准数据集,以评估上下文解释的质量。
- 在忠实度与上下文偏差定位精度方面,将网格显著性与基于梯度的基线方法进行比较。
提出的方法
- 网格显著性被形式化为一个优化问题,以识别在目标物体区域中维持网络预测所需的最小未扰动图像区域。
- 该方法将输入图像划分为一个空间网格,并系统性地扰动各个网格块,以识别对维持预测最关键的区域。
- 采用基于扰动的方法,其中网格块被掩码或替换为噪声,并监控模型的预测结果以确定显著性。
- 每个网格单元的显著性分数反映了该区域对目标物体预测的影响,从而实现对物体与上下文影响的空间解耦。
- 该方法按每个预测头或每类应用,为每个物体实例生成局部化的上下文解释。
- 该方法在具有人工上下文偏差的合成数据集以及真实世界Cityscapes数据集上,使用最先进的分割网络进行了评估。
实验结果
研究问题
- RQ1网格显著性能否有效生成空间一致、可解耦的解释,以区分语义分割中物体与上下文的影响?
- RQ2在专为此目的设计的合成数据集中,网格显著性对人工上下文偏差的检测与定位能力如何?
- RQ3在上下文偏差检测的忠实度与定位精度方面,网格显著性与基于梯度的显著性方法相比表现如何?
- RQ4当前最先进的语义分割模型在多大程度上依赖于上下文线索?网格显著性能否忠实地揭示这些依赖关系?
- RQ5网格显著性能否用于检测并定位通过上下文操纵影响预测的对抗性扰动?
主要发现
- 网格显著性在合成数据集和真实世界数据上均成功生成了易于解释且空间一致的上下文解释。
- 在合成数据集中,网格显著性对上下文偏差表现出高敏感性,显著性图能清晰突出有偏差的背景纹理,而基于梯度的方法则产生噪声大、不忠实的图。
- 该方法在合成数据集上以90%的准确率正确识别了有偏差的背景区域。
- 在Cityscapes数据集中,网格显著性揭示了物体与其上下文之间的空间与语义相关性,例如自行车对骑手预测的影响。
- 网格显著性通过在上下文区域而非物体本身显示高显著性,成功检测到由上下文偏差导致的误分类(如因婴儿车把手导致的骑手上半身误分类)。
- 在上下文偏差的检测与定位方面,该方法优于基于梯度的基线方法,展现出更高的忠实度与鲁棒性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。