QUICK REVIEW

[논문 리뷰] Rethinking Vector Field Learning for Generative Segmentation

Chaoyang Wang, Yaobo Liang|arXiv (Cornell University)|2026. 03. 19.

Generative Adversarial Networks and Image Synthesis인용 수 0

한 줄 요약

논문은 vanilla flow matching이 확산 기반 분할에 왜 해로운지 분석하고 FlowSeg를 도입한다. FlowSeg는 거리 인식 보정으로 벡터장을 재형성하고 픽셀 수준의 엔드-투-엔드 디코딩으로 분할 성능을 강화하여 판별 모델과의 격차를 좁힌다.

ABSTRACT

Taming diffusion models for generative segmentation has attracted increasing attention. While existing approaches primarily focus on architectural tweaks or training heuristics, there remains a limited understanding of the intrinsic mismatch between continuous flow matching objectives and discrete perception tasks. In this work, we revisit diffusion segmentation from the perspective of vector field learning. We identify two key limitations of the commonly used flow matching objective: gradient vanishing and trajectory traversing, which result in slow convergence and poor class separation. To tackle these issues, we propose a principled vector field reshaping strategy that augments the learned velocity field with a detached distance-aware correction term. This correction introduces both attractive and repulsive interactions, enhancing gradient magnitudes near centroids while preserving the original diffusion training framework. Furthermore, we design a computationally efficient, quasi-random category encoding scheme inspired by Kronecker sequences, which integrates seamlessly with an end-to-end pixel neural field framework for pixel-level semantic alignment. Extensive experiments consistently demonstrate significant improvements over vanilla flow matching approaches, substantially narrowing the performance gap between generative segmentation and strong discriminative specialists.

연구 동기 및 목표

연속 확산 흐름과 이산 분할 작업 간의 최적화 미스매치를 식별한다.
분할을 위한 flow matching에서 그래디언트 소실과 궤적 진행 문제를 진단한다.
수렴 및 클래스 구분을 개선하기 위해 거리 인식 보정이 있는 벡터 필드 재형성 전략을 제안한다.
엔드-투-엔드 학습을 위한 준난수 중심 인코딩과 픽셀 신경장 필드 디코딩을 도입한다.
고다항성(high-cardinality) 분할 벤치마크에서 성능 향상을 시연한다.

제안 방법

표준 흐름 매칭의 그래디언트 다이나믹스를 분석하고 그래디언트 소실 및 클래스 간 반발력 부재를 지적한다.
거리 인식 퍼텐셜 필드 Phi를 도입하여 속도에 판별적 보정을 제공하고, stop-gradient를 통해 재형성된 목표 속도 tilde{v}_t에 그것을 통합한다.
Kronecker-시퀀스에서 영감을 받은 준난수 중심 인코딩을 개발하여 N개의 범주를 [-1,1]^3에 결정적으로 배치하고 클래스 간 간격을 좋게 유지한다.
VAE에 의존하지 않고 패치 특징을 픽셀 단위 속도장으로 매핑하기 위해 엔드-투-엔드 픽셀 신경장 필드 디코딩을 사용하여 픽셀 단위 분할 정렬을 가능하게 한다.
L_res 손실로 훈련하며 sg[tilde{v}_t]를 사용하여 안정성을 보존하면서 판별적 가이던스를 주입한다.
실험에 사용된 학습 단계, 데이터 증강 및 최적화 설정(AdamW, REPA)을 선택적으로 기술한다.

실험 결과

연구 질문

RQ1표준 흐름 매칭 목표가 생성 분할의 최적화 다이나믹스에 어떤 영향을 미치는가?
RQ2거리 인식 보정 항이 반발력을 도입하여 클래스 구분을 개선하고 그래디언트 소실을 완화할 수 있는가?
RQ3픽셀 수준의 엔드-투-엔드 디코딩 파이프라인이 잠재 공간 방법에 비해 픽셀 단위 분할 목표에 더 잘 정렬되는가?
RQ4준난수 중심 인코딩이 확산 프레임워크에서 고다항성 분할을 안정시키기에 충분한가?

주요 결과

Method	Backbone	Pretrain Data	mIoU
DeeplabV3+	ResNet101	IN-1k	44.1
SegFormer	MiT-B2	IN-1k	46.5
MaskFormer	Swin-T	IN-1k	46.7
InstructDiffusion	(SD1.5)	LSTI	33.6
PixWizard	(Lumina-Next-T2I)	LSTI	32.8
FlowSeg (Ours)	PixNerd	IN-1k	47.1
DeeplabV3+	ResNet50	IN-1k	38.4
OCRNet	HRNet-W48	IN-1k	42.3
SegFormer	MiT-B2	IN-1k	44.6
SymmFlow	(SD2.1)	LSTI	39.6
FlowSeg (Ours)	PixNerd	IN-1k	44.9

일반적인 흐름 매칭은 의미 중심 근처에서 그래디언트 소실이 발생하고 비목표 중심으로부터의 반발이 부족하여 수렴 및 구분을 저해한다.
거리에 따른 보정 항이 포함된 벡터 필드 재형성은 중심점 주위의 그래디언트 크기를 개선하고 매력적/반발적 힘을 도입하여 수렴을 가속하고 분리를 개선한다.
Kronecker-시퀀스에서 영감을 얻은 준난수 중심 인코딩은 [-1,1]^3에서 균형 잡힌 결정적 중심 배치를 제공한다.
픽셀 신경장 디코딩은 VAEs 없이 픽셀 수준에서 엔드-투-엔드 학습을 가능하게 하여 미세한 공간 정보를 보존한다.
FlowSeg는 ADE20K에서 mIoU 47.1, COCO-Stuff에서 44.9를 달성하여 ImageNet-1k 사전학습을 사용하더라도 여러 판별 기반 baselines 및 순수 확산 방법들을능가한다.
FlowSeg는 샘플링 스텝 전반에서 더 빠른 수렴과 견고함을 보이며, 확률적 기준선과 달리 결정론적 예측을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.