[论文解读] GMMSeg: Gaussian Mixture based Generative Semantic Segmentation Models
GMMSeg 通过用高斯混合模型来建模类别条件的特征密度,引入一个密集的生成式分类器用于语义分割,在特征提取器以判别方式训练的同时,使用在线 Sinkhorn EM 进行训练。
Prevalent semantic segmentation solutions are, in essence, a dense discriminative classifier of p(class|pixel feature). Though straightforward, this de facto paradigm neglects the underlying data distribution p(pixel feature|class), and struggles to identify out-of-distribution data. Going beyond this, we propose GMMSeg, a new family of segmentation models that rely on a dense generative classifier for the joint distribution p(pixel feature,class). For each class, GMMSeg builds Gaussian Mixture Models (GMMs) via Expectation-Maximization (EM), so as to capture class-conditional densities. Meanwhile, the deep dense representation is end-to-end trained in a discriminative manner, i.e., maximizing p(class|pixel feature). This endows GMMSeg with the strengths of both generative and discriminative models. With a variety of segmentation architectures and backbones, GMMSeg outperforms the discriminative counterparts on three closed-set datasets. More impressively, without any modification, GMMSeg even performs well on open-world datasets. We believe this work brings fundamental insights into the related fields.
研究动机与目标
- 通过建模 p(pixel feature|class) 来捕捉数据分布,推动超越判别式 p(class|pixel feature) 的动机。
- 为每个类别开发基于高斯混合模型(GMM) 的分类器,以建模类别条件密度 p(x|c)。
- 通过在生成式地优化 GMM 分类器的同时联合训练判别式特征提取器,实现端到端学习。
- 在闭集数据集上提高分割性能,并在不改变架构的前提下实现开放世界异常分割。
- 提供一个将生成密度建模与判别表示学习相结合的原理性框架。
提出的方法
- 将类别条件密度 p(x|c) 模型化为每个类别具有 M 个分量的高斯混合模型。
- 在训练过程中在线使用 EM(基于 Sinkhorn 的重构/重新公式化)来估计每个类别 c 的 GMM 参数 φ_c。
- 用对角协方差来表示类别密度,以降低计算量。
- 在 GMM 评估前通过 1x1 卷积将像素特征压缩到 D=64。
- 通过最大化从 GMM 推导出的 p(c|x) 来判别性地训练特征提取器 f_theta,同时以动量式更新 EM 下的 GMM 参数 φ_c(τ=0.999)。
- 使用外部特征记忆/队列以支持跨批次的大规模 EM。
实验结果
研究问题
- RQ1生成型的类别条件密度模型是否能在分割任务中超越传统的判别式 softmax 分类器?
- RQ2将在线 EM 基于 GMM 的优化与端到端判别式特征学习相结合,是否在闭集数据集上获得稳健的性能?
- RQ3GMMSeg 是否能够在不修改架构或训练协议的情况下处理开放世界和异常分割?
- RQ4每个类别的多分量高斯混合与单峰高斯或纯判别模型在分割任务中的比较如何?
主要发现
- GMMSeg 在三个闭集数据集上,跨多种架构和主干网络,超越了基于 softmax 的判别对手。
- 该方法在不改变架构或额外标定的情况下实现了有意义的异常/开放世界性能。
- 混合训练方案在 ADE20K、Cityscapes 和 COCO-Stuff 数据集上分别在 mIoU 上提高了 0.6–1.7 个百分点(摘要中给出)。
- 由于对 p(x|c) 的显式建模,该方法自然而然地为分布外/异常输入提供基于密度的度量。
- GMMSeg 兼容多种现代分割架构(DeepLabV3+、OCRNet、UperNet、SegFormer)和主干网络(ResNet、HRNet、Swin、MiT)。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。