[论文解读] Efficient Inference in Fully Connected CRFs with Gaussian Edge Potentials
论文开发了一种高效的均值场推断方法,用于带高斯边缘势的全连接CRFs,能够实现像素级密集连通性和图像分割中的显著准确性提升,同时实现较快的运行时间。
Most state-of-the-art techniques for multi-class image segmentation and labeling use conditional random fields defined over pixels or image regions. While region-level models often feature dense pairwise connectivity, pixel-level models are considerably larger and have only permitted sparse graph structures. In this paper, we consider fully connected CRF models defined on the complete set of pixels in an image. The resulting graphs have billions of edges, making traditional inference algorithms impractical. Our main contribution is a highly efficient approximate inference algorithm for fully connected CRF models in which the pairwise edge potentials are defined by a linear combination of Gaussian kernels. Our experiments demonstrate that dense connectivity at the pixel level substantially improves segmentation and labeling accuracy.
研究动机与目标
- 动机:引入密集(全连接)CRFs用于像素级图像分割,以提升边界精度和标注一致性。
- 开发可扩展的近似推断算法,使全连接CRFs中能够进行MAP推断。
- 从数据中有效学习模型参数(一元、成对核和相容性)。
提出的方法
- 使用均值场近似将CRF分布近似为独立边际的乘积。
- 将成对势能表述为在任意特征空间中的高斯核的线性组合。
- 在特征空间中将消息传递表示为高斯滤波,将复杂度从变量数量的平方降低到线性。
- 在对特征空间进行白化后,利用 permutohedral lattice 的高维滤波实现高效卷积。
- 通过分段训练和基于梯度的优化来学习核权重和相容性函数(相容性使用L-BFGS,核宽度使用网格搜索)。
- 使用Potts或学习的对称相容性函数来建模标签间的相互作用。
实验结果
研究问题
- RQ1带高斯边缘势的全连接CRF是否相较于稀疏或基于区域的模型提高像素级分割的准确性?
- RQ2采用高维高斯滤波的均值场推断是否能为密集像素图提供实际可用的运行时间,同时不牺牲准确性?
- RQ3长程连通、核宽度和标签相容性如何影响分割质量和边界精度?
主要发现
- CRFs中的密集像素级连通性在MSRC-21和PASCAL VOC 2010数据集上比网格和高阶方法带来更高的分割准确性。
- 所提出的均值场推断在单核CPU上大约0.2秒,而MCMC或图割等替代推断方法需要数小时。
- 长程连通(更大空间和颜色范围)在某些情形下将准确性提高到一定程度,在距离≥35像素的边上,超过50%的成对能量被分配到边,但过度的长程传播可能会误导标注。
- 在MSRC-21上,带有学习的标签相容性的全连接CRF实现了88.2%的全局准确率和84.7%的平均准确率(而仅用一元项时为84.0%/76.6%)。
- 在PASCAL VOC 2010上,带Potts势的全连接模型实现了29.1%的平均准确率,经学习的标签相容性提高到30.2%(优于网格CRF的28.3%)。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。