QUICK REVIEW

[논문 리뷰] Prompting Diffusion Representations for Cross-Domain Semantic Segmentation

Rui Gong, Martin Danelljan|arXiv (Cornell University)|2023. 07. 05.

Domain Adaptation and Few-Shot Learning인용 수 8

한 줄 요약

본 논문은 diffusion-pretrained 표현이 의미론적 분할에 대해 탁월한 도메인 간 일반화를 제공한다는 점을 보여주고, 프롬프트 기반 전략(장면 프롬프트와 카테고리 프롬프트, 프롬프트 무작위화)을 도입하며 테스트 시 프롬프트 튜닝을 통해 DG와 TTDA 성능을 더욱 향상시킨다.

ABSTRACT

While originally designed for image generation, diffusion models have recently shown to provide excellent pretrained feature representations for semantic segmentation. Intrigued by this result, we set out to explore how well diffusion-pretrained representations generalize to new domains, a crucial ability for any representation. We find that diffusion-pretraining achieves extraordinary domain generalization results for semantic segmentation, outperforming both supervised and self-supervised backbone networks. Motivated by this, we investigate how to utilize the model's unique ability of taking an input prompt, in order to further enhance its cross-domain performance. We introduce a scene prompt and a prompt randomization strategy to help further disentangle the domain-invariant information when training the segmentation head. Moreover, we propose a simple but highly effective approach for test-time domain adaptation, based on learning a scene prompt on the target domain in an unsupervised manner. Extensive experiments conducted on four synthetic-to-real and clear-to-adverse weather benchmarks demonstrate the effectiveness of our approaches. Without resorting to any complex techniques, such as image translation, augmentation, or rare-class sampling, we set a new state-of-the-art on all benchmarks. Our implementation will be publicly available at \url{https://github.com/ETHRuiGong/PTDiffSeg}.

연구 동기 및 목표

확산-사전 학습 백본이 보지 못한 도메인에서 의미론적 분할에 일반화되는 정도를 평가한다.
프롬프트 컨디셔닝이 도메인-불변 특징과 도메인-변이적 단서를 분리해낼 수 있는지 조사한다.
도메인 일반화를 향상시키기 위해 장면 프롬프트와 카테고리 프롬프트 및 프롬프트 무작위화를 제안한다.
비지도 타깃 데이터를 사용한 테스트 시 도메인 적응을 위한 프롬프트 튜닝 기반 접근법을 개발한다.

제안 방법

확산-사전 학습 백본(Stable Diffusion)을 고정하고 의미론적 투영 헤드를 학습한다.
특징 분리을 위한 컨디셔닝 입력으로 카테고리 프롬프트(class tokens)와 장면 프롬프트(domain/style cues)를 도입한다.
KL-발산 기반 손실을 사용하여 여러 장면 프롬프트에 걸친 예측 일관성을 보장함으로써 프롬프트 무작위화를 적용한다.
여러 프롬프트로 학습하기 위해 의미론적 분할 손실과 일관성 손실을 결합한 손실을 사용한다.
TTDA의 경우 타깃 도메인에 적응하기 위해 의사 레이블 기반 objective를 통해 장면 프롬프트만 미세조정한다.

실험 결과

연구 질문

RQ1확산-사전 학습이 감독학습 및 자기지도 학습 백본과 비교했을 때 아웃-오브-도메인 의미론적 분할에서 어떤 차이를 보이는가?
RQ2프롬프트 컨디셔닝(카테고리 프롬프트 및 장면 프롬프트)이 도메인 일반화를 향상시킬 수 있는가?
RQ3프롬프트 무작위화가 도메인 불변 표현의 분리를 더 촉진하고 로버스트성을 향상시키는가?
RQ4테스트 시간 프롬프트 튜닝이 라벨이 없는 타깃 도메인에 대해 효율적인 적응을 가능하게 하는가?

주요 결과

diffusion-pretrained 백본은 GTA→Cityscapes 등에서 ImageNet-supervised, 자기지도 학습, CLIP 백본에 비해 우수한 도메인 일반화를 달성한다.
카테고리 프롬프트와 장면 프롬프트가 모델이 도메인-불변 의미를 도메인-변이 스타일로부터 분리하도록 하여 일반화를 향상시킨다.
프롬프트 무작위화는 서로 다른 장면 프롬프트 간에 일관된 예측을 산출하고 합성-실제 및 맑은-불리한 벤치마크에서 기준선을 능가한다.
테스트 시간에 장면 프롬프트의 프롬프트 튜닝은 매개변수 효율적인 TTDA 이득을 제공하고 여러 TTDA 기준선을 상회한다.
프롬프트를 활용한 DG 방법은 Cityscapes→ACDC를 포함한 다수 벤치마크에서 최첨단 성과를 달성하며, 타깃 데이터 없이도 일부 UDA 방법보다도 우수한 성과를 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.