QUICK REVIEW

[논문 리뷰] DifFSS: Diffusion Model for Few-Shot Semantic Segmentation

Weimin Tan, Siyuan Chen|arXiv (Cornell University)|2023. 07. 03.

Domain Adaptation and Few-Shot Learning인용 수 13

한 줄 요약

DifFSS는 확산 모델 기반 패러다임을 도입하여 퍼 few-shot 시맨틱 분할을 위한 다양한 보조 지원 이미지를 생성하고, 기존 FSS 모델의 아키텍처를 변경하지 않으면서 성능을 향상시킵니다.

ABSTRACT

Diffusion models have demonstrated excellent performance in image generation. Although various few-shot semantic segmentation (FSS) models with different network structures have been proposed, performance improvement has reached a bottleneck. This paper presents the first work to leverage the diffusion model for FSS task, called DifFSS. DifFSS, a novel FSS paradigm, can further improve the performance of the state-of-the-art FSS models by a large margin without modifying their network structure. Specifically, we utilize the powerful generation ability of diffusion models to generate diverse auxiliary support images by using the semantic mask, scribble or soft HED boundary of the support image as control conditions. This generation process simulates the variety within the class of the query image, such as color, texture variation, lighting, $etc$. As a result, FSS models can refer to more diverse support images, yielding more robust representations, thereby achieving a consistent improvement in segmentation performance. Extensive experiments on three publicly available datasets based on existing advanced FSS models demonstrate the effectiveness of the diffusion model for FSS task. Furthermore, we explore in detail the impact of different input settings of the diffusion model on segmentation performance. Hopefully, this completely new paradigm will bring inspiration to the study of FSS task integrated with AI-generated content. Code is available at https://github.com/TrinitialChan/DifFSS

연구 동기 및 목표

한정된 단일/소수의 보조 이미지가 가지는 한계를 보완하기 위해 다양한 생성 이미지를 통해 보조 세트를 확장한다.
조건부 확산 모델을 활용하여 intra-class 변이성(색상, 질감, 조명, 자세)을 포착하여 robust한 질의 분할을 달성한다.
다양한 확산 입력 조건이 분할 성능에 어떤 영향을 미치는지 조사한다.
DifFSS를 기존 FSS 아키텍처와 통합할 때의 호환성 및 성능 향상을 입증한다.
X-shot으로의 확장 가능성을 탐색하고 생성 드리프트 및 보조 품질 민감도에 대해 논의한다.

제안 방법

보조 이미지를 ControlNet과 Stable Diffusion으로 조건화하여 보조 이미지를 생성한다.
지원 이미지에서 에지/경계 맵 및 낙서를 통해 컨트롤 조건을 생성한다( HED 에지 검출에서 파생).
'a real shot photo of {class name}'과 같은 프롬프트를 사용하여 생성 이미지를 안내하되 지원 이미지와 동일한 세그먼트 마스크를 공유한다.
생성된 보조 이미지 I^G를 원래의 지원 이미지 I^s 및 M^s와 함께 표준 FSS 모델 f_seg에 입력하여 질의 마스크 M^q_hat 를 예측한다.
확산 모델 매개변수를 고정한 채 교차 엔트로피 손실로 f_seg를 학습한다.
I^G와 M^s 사이에서 물체 위치가 이동할 수 있는 생성 드 drift를 다루고 보조 샘플 수를 늘려 X-shot으로의 확장을 논의한다.

실험 결과

연구 질문

RQ1지원 세그먼트 데이터에 조건화된 확산 모델이 의미상 일관되면서도 다양한 보조 이미지를 생성하여 FSS 정확도를 향상시키는가?
RQ2다른 확산 입력 조건(세그먼트 맵, 경계 맵, 낙서)이 분할 성능에 어떤 영향을 미치는가?
RQ3DifFSS 접근 방식이 K-shot에서 X-shot으로 자연스럽게 확장될 수 있는가, 그리고 생성 드 drift로 인한 한계는 무엇인가?
RQ4생성된 보조 샘플이 FSS 모델의 강건성 및 intra-class 변이 표현에 미치는 영향은 무엇인가?

주요 결과

DiffFSS는 기존 모델과 결합될 때 PASCAL-5i, FSS-1000, 및 MiniCOCO-20i 벤치마크 전반에서 최첨단 FSS 방법의 성능을 일관되게 향상시킨다.
확산 생성 보조 이미지 사용은 기본 방법(BAM, HDMNet 등)에서 데이터셋 전반에 걸쳐 주목할 만한 mIoU 향상을 가져온다.
생성된 보조 이미지의 수가 많아질수록 일반적으로 성능이 향상되지만, 보조 품질이 좋지 않을 경우 생성 드 drift로 인해 이득이 감소할 수 있다.
컨트롤 조건(세그먼트 맵, 경계, 낙서)은 모두 성능 향상을 제공하며, 확산 보강은 실제 5-shot 설정에서 추가 이득을 제공하는 경우가 있다.
생성된 이미지의 프로토타입 분포가 원본 주위에 군집되어 생성 이미지가 의미상 일관성을 유지하면서 클래스 간 변이성을 확장함을 시사한다.
X-shot으로의 확장(더 많은 보조 이미지)은 mIoU 향상을 보여 DifFSS의 확장성을 입증한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.