[论文解读] Rethinking Vector Field Learning for Generative Segmentation
论文分析了普通的流匹配为何会损害基于扩散的分割,并提出 FlowSeg,通过距离感知校正重塑向量场并使用像素级端到端解码来实现更强的分割性能,缩小与判别模型的差距。
Taming diffusion models for generative segmentation has attracted increasing attention. While existing approaches primarily focus on architectural tweaks or training heuristics, there remains a limited understanding of the intrinsic mismatch between continuous flow matching objectives and discrete perception tasks. In this work, we revisit diffusion segmentation from the perspective of vector field learning. We identify two key limitations of the commonly used flow matching objective: gradient vanishing and trajectory traversing, which result in slow convergence and poor class separation. To tackle these issues, we propose a principled vector field reshaping strategy that augments the learned velocity field with a detached distance-aware correction term. This correction introduces both attractive and repulsive interactions, enhancing gradient magnitudes near centroids while preserving the original diffusion training framework. Furthermore, we design a computationally efficient, quasi-random category encoding scheme inspired by Kronecker sequences, which integrates seamlessly with an end-to-end pixel neural field framework for pixel-level semantic alignment. Extensive experiments consistently demonstrate significant improvements over vanilla flow matching approaches, substantially narrowing the performance gap between generative segmentation and strong discriminative specialists.
研究动机与目标
- 识别连续扩散流与离散分割任务之间的优化不匹配。
- 诊断流匹配在分割中的梯度消失与轨迹穿越问题。
- 提出带距离感知校正的向量场重塑策略以改善收敛性和类别分离。
- 引入准随机质心编码与像素神经场解码实现端到端训练。
- 在高基数分割基准上展示性能提升。
提出的方法
- 分析标准流匹配的梯度动态,指出梯度消失与类别之间缺乏排斥力。
- 引入距离感知的势场 Phi,使速度发生区分性修正,并通过 stop-gradient 将其整合到重塑后的目标速度 tilde{v}_t 中。
- 开发受 Kronecker 序列启发的准随机质心编码,将 N 个类别确定性地置于 [-1,1]^3,且具备良好的类间间距。
- 采用端到端像素神经场解码,将特征图映射到逐像素的速度场,而不依赖 VAEs,从而实现像素级分割对齐。
- 用 L_res 损失进行训练,利用 sg[tilde{v}_t] 维持稳定性同时注入判别性引导。
- 可选描述在实验中使用的训练阶段、数据增强与优化设定(AdamW、REPA)。
实验结果
研究问题
- RQ1标准流匹配目标如何影响生成性分割的优化动态?
- RQ2距离感知的校正项是否能引入排斥力以改善类别分离并缓解梯度消失?
- RQ3像素级端到端解码管线相比潜在空间方法是否更能与像素级分割目标对齐?
- RQ4准随机质心编码是否足以在扩散框架中稳定高基数分割?
主要发现
| Method | Backbone | Pretrain Data | mIoU |
|---|---|---|---|
| DeeplabV3+ | ResNet101 | IN-1k | 44.1 |
| SegFormer | MiT-B2 | IN-1k | 46.5 |
| MaskFormer | Swin-T | IN-1k | 46.7 |
| InstructDiffusion | (SD1.5) | LSTI | 33.6 |
| PixWizard | (Lumina-Next-T2I) | LSTI | 32.8 |
| FlowSeg (Ours) | PixNerd | IN-1k | 47.1 |
| DeeplabV3+ | ResNet50 | IN-1k | 38.4 |
| OCRNet | HRNet-W48 | IN-1k | 42.3 |
| SegFormer | MiT-B2 | IN-1k | 44.6 |
| SymmFlow | (SD2.1) | LSTI | 39.6 |
| FlowSeg (Ours) | PixNerd | IN-1k | 44.9 |
- 普通的流匹配在语义质心附近存在梯度消失,并且缺乏对非目标质心的排斥,阻碍收敛与判别。
- 带距离感知校正项的向量场重塑能提升质心附近的梯度 magnitude,并引入吸引/排斥力,加速收敛并改善分离。
- 受 Kronecker 序列启发的准随机质心编码在 [-1,1]^3 中实现了平衡、确定性的质心放置。
- 像素神经场解码实现端到端的像素级训练,不依赖 VAEs,可保留细粒度空间信息。
- FlowSeg 在 ADE20K 上达到 47.1 的 mIoU,在 COCO-Stuff 上达到 44.9,超过若干判别基线和仅扩散的方法,尽管使用了 ImageNet-1k 预训练。
- FlowSeg 展现出更快的收敛速度与对采样步数的鲁棒性,与随机基线相比具有确定性预测。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。