QUICK REVIEW

[论文解读] Learning Affinity via Spatial Propagation Networks

Sifei Liu, Shalini De Mello|arXiv (Cornell University)|Oct 3, 2017

Advanced Image and Video Retrieval Techniques参考文献 27被引用 26

一句话总结

本文提出空间传播网络（SPN），一种可微分的、数据驱动的框架，通过深度卷积神经网络（CNN）建模空间可变的线性变换，学习视觉任务中的密集亲和矩阵。该方法在PASCAL VOC上优于基于密集CRF的优化，使用ResNet-101时达到79.76的平均交并比（mIoU），在测试集上达到80.22，展现出更优的边界细化能力和在不同主干模型间的泛化性能。

ABSTRACT

In this paper, we propose spatial propagation networks for learning the affinity matrix for vision tasks. We show that by constructing a row/column linear propagation model, the spatially varying transformation matrix exactly constitutes an affinity matrix that models dense, global pairwise relationships of an image. Specifically, we develop a three-way connection for the linear propagation model, which (a) formulates a sparse transformation matrix, where all elements can be the output from a deep CNN, but (b) results in a dense affinity matrix that effectively models any task-specific pairwise similarity matrix. Instead of designing the similarity kernels according to image features of two points, we can directly output all the similarities in a purely data-driven manner. The spatial propagation network is a generic framework that can be applied to many affinity-related tasks, including but not limited to image matting, segmentation and colorization, to name a few. Essentially, the model can learn semantically-aware affinity values for high-level vision tasks due to the powerful learning capability of the deep neural network classifier. We validate the framework on the task of refinement for image segmentation boundaries. Experiments on the HELEN face parsing and PASCAL VOC-2012 semantic segmentation tasks show that the spatial propagation network provides a general, effective and efficient solution for generating high-quality segmentation results.

研究动机与目标

为解决手动生成的相似性核函数在建模视觉任务中高层语义关系方面的局限性。
开发一种通用的、端到端可训练的框架，直接从数据中学习亲和矩阵，避免迭代优化或预定义度量。
通过可微分的空间传播机制学习任务特定、语义感知的亲和矩阵，以提升分割边界质量。
用可学习的、高效的替代方案取代后处理模块（如密集CRF），并实现对不同基础分割模型的泛化能力。

提出的方法

该方法在线性传播模型中采用三路连接结构，从深度CNN的稀疏输出生成密集亲和矩阵，避免完全连接。
深度CNN预测空间可变变换矩阵的参数，随后通过线性传播计算密集亲和矩阵。
空间传播模块对特征图应用循环式线性变换，时间复杂度与像素数量呈线性关系，实现高效推理。
所有组件均可微分，并通过随机梯度下降联合训练，亲和矩阵由最终任务损失直接监督。
该框架可通过使用预测的亲和矩阵对粗预测进行优化，与任意分割模型集成。
该方法利用VGG和ResNet的层次化特征作为输入，提升亲和学习中的高层语义理解能力。

实验结果

研究问题

RQ1可学习的、数据驱动的亲和矩阵是否能在语义分割中超越手工设计的相似性核函数？
RQ2空间可变的线性传播机制是否能有效建模图像中全局、密集的成对关系？
RQ3所提出的框架是否能在不微调的情况下泛化到不同基础分割模型？
RQ4与全连接输出相比，三路连接如何在保持性能的同时降低参数复杂度？
RQ5SPN-based优化是否在基准数据集上同时超越密集CRF的准确率与效率？

主要发现

三路SPN在PASCAL VOC-2012测试集上，使用Deeplab ResNet-101主干模型时，达到79.76的平均交并比（mIoU），优于密集CRF基线的79.7。
在同一测试集上，SPN优化后的模型达到80.22的平均交并比，表明其在基线模型和CRF优化方法上均实现持续改进。
与基线Deeplab ResNet-101模型相比，SPN将平均准确率提升3.33个百分点，达到86.09的平均AC（无优化时为84.16）。
三路连接结构在泛化能力上优于单路版本，后者在复杂分割图上失效，表明其在捕捉复杂数据分布方面的优势。
SPN显著提升了空洞卷积基模型的性能，当添加到“Front end”模型时，平均交并比提升5.52个百分点（从69.75提升至75.28）。
可视化结果表明，SPN生成的边界更清晰，语义完整性更优，尤其在物体细节和边缘区域表现突出，如图4中红色框所示。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。