Skip to main content
QUICK REVIEW

[논문 리뷰] Inst-Inpaint: Instructing to Remove Objects with Diffusion Models

Ahmet Burak Yildirim, Vedat Baday|arXiv (Cornell University)|2023. 04. 06.
Generative Adversarial Networks and Image Synthesis인용 수 18
한 줄 요약

Inst-Inpaint은 자연어 지시만으로 이미지에서 객체를 제거하는 확산 기반 프레임워크이며, 사용자 드로잉 마스크를 필요로 하지 않으며, GQA-Inpaint 데이터셋으로 학습되었습니다.

ABSTRACT

Image inpainting task refers to erasing unwanted pixels from images and filling them in a semantically consistent and realistic way. Traditionally, the pixels that are wished to be erased are defined with binary masks. From the application point of view, a user needs to generate the masks for the objects they would like to remove which can be time-consuming and prone to errors. In this work, we are interested in an image inpainting algorithm that estimates which object to be removed based on natural language input and removes it, simultaneously. For this purpose, first, we construct a dataset named GQA-Inpaint for this task. Second, we present a novel inpainting framework, Inst-Inpaint, that can remove objects from images based on the instructions given as text prompts. We set various GAN and diffusion-based baselines and run experiments on synthetic and real image datasets. We compare methods with different evaluation metrics that measure the quality and accuracy of the models and show significant quantitative and qualitative improvements.

연구 동기 및 목표

  • 텍스트 프롬프트에 의해 제거 대상이 정의되고 이진 마스크를 필요로 하지 않는 instructional 이미지 인페인팅을 촉진한다.
  • 씬 그래프 주도 프롬프트를 가진 실제 이미지 데이터셋(GQA-Inpaint)을 만들어 객체 제거를 수행한다.
  • 텍스트 프롬프트를 사용해 이미지를 제거하는 단일 스테이지 조건부 확산 모델(Inst-Inpaint)을 개발한다.
  • 새로운 CLIP 기반 인페인팅 점수를 포함한 메트릭으로 베이스라인과 평가한다.
  • 상태-of-the-art 텍스트 기반 인페인팅 방법 대비 정량적 및 정성적 개선을 보여준다.

제안 방법

  • 명시적 마스크 없이 참조된 객체를 제거하고 이미지와 텍스트 지시를 입력으로 받는 엔드-투-엔드 잠재 확산 모델(Inst-Inpaint)을 제안한다.
  • GQA 장면 그래프를 활용하고 Detectron2와 Detic으로 세분화 마스크를 얻고 장면 관계에서 텍스트 제거 프롬프트를 생성하여 GQA-Inpaint 데이터셋을 구성한다.
  • 두 단계 설정으로 두 개의 Inst-Inpaint 모델을 학습한다: 고정된 1단 엔코더(VQGAN 기반의 GQA-Inpaint용; CLEVR은 KL-정규화 오토인코더)와 소스 이미지와 텍스트를 연결(concatenation) 및 교차 주의(attention)로 통합하는 두 번째 단계 조건부 LDM.
  • latent code에 대해 소스 이미지와 텍스트 프롬프트로 조건화된 잠재 확산 목표를 사용한다.
  • CascadePSP 정제 및 마스크 팽창과 같은 전처리를 적용한 뒤 CRFill로 인페인팅하여 데이터셋 생성 파이프라인에서 대상 이미지를 산출한다.
Figure 1 : Instructional Image Inpainting. We propose a new image inpainting method, Inst-Inpaint , which takes an image and a textual instruction as input and is able to automatically remove objects mentioned in the text, without any need for a user-supplied binary mask to locate the region of inte
Figure 1 : Instructional Image Inpainting. We propose a new image inpainting method, Inst-Inpaint , which takes an image and a textual instruction as input and is able to automatically remove objects mentioned in the text, without any need for a user-supplied binary mask to locate the region of inte

실험 결과

연구 질문

  • RQ1추론 시 이진 마스크를 필요로 하지 않고 지시 주도 확산 모델이 실제 이미지에서 객체를 제거할 수 있는가?
  • RQ2텍스트-조건 인페인팅 모델이 실제 및 합성 데이터셋에서 마스크 기반 및 다른 텍스트 기반 베이스라인과 비교해 얼마나 잘 수행하는가?
  • RQ3CLIP 기반 인페인팅 점수가 지시 가이드 편집에서 제거 정확도 및 사실성에 상관관계가 있는가?

주요 결과

방법FID ↓CLIP Dist. ↑CLIP Acc. ↑CLIP Acc. (top 5) ↑RelSim ↑Mask IoU ↑
X-Decoder6.36072.262.641.5--
InstPix2Pix9.97256.833.511.8--
CLIPSeg8.04871.757.433.5--
Inst-Inpaint (Ours)5.67976.077.457.3--
  • Inst-Inpaint는 GQA-Inpaint에서 경쟁 방법들보다 더 낮은 FID 점수와 더 높은 CLIP 기반 지표를 달성한다.
  • 모델은 지시된 객체에 주의를 기울이고 제거하는 강한 능력을 보여주며, 대상 객체에 주의가 집중되는 어텐션 맵으로 나타난다.
  • CLEVR에서 Inst-Inpaint는 객체 제거 작업에서 GAN 기반 베이스라인을 능가하여 합성 설정에서도 지시 조건 편집이 효과적임을 보여준다.
  • Instruct X-Decoder 및 ClipSeg와 비교할 때 Inst-Inpaint는 어텐션 맵에서 간단한 UNet를 사용하여 마스크 예측 정확도(IoU 점수는 표 III에 제시)에서 더 나은 성능을 보인다.
  • 이 연구 방법은 정성적 및 정량적 개선을 얻었고, 보고된 결과 표는 많은 경우에 CLIP 정확도와 관계 일관성이 우수함을 시사한다.
Figure 2 : The proposed GQA-Inpaint dataset and our Inst-Inpaint method. Our work involves initially generating a dataset for the proposed instructional image inpainting task. To create input/output pairs, we utilize the images and their scene graphs that exist in the GQA dataset [ 18 ] . (a) We fir
Figure 2 : The proposed GQA-Inpaint dataset and our Inst-Inpaint method. Our work involves initially generating a dataset for the proposed instructional image inpainting task. To create input/output pairs, we utilize the images and their scene graphs that exist in the GQA dataset [ 18 ] . (a) We fir

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.