QUICK REVIEW

[논문 리뷰] DiffEdit: Diffusion-based semantic image editing with mask guidance

Guillaume Couairon, Jakob Verbeek|arXiv (Cornell University)|2022. 10. 20.

Generative Adversarial Networks and Image Synthesis참고 문헌 54인용 수 102

한 줄 요약

DiffEdit는 DDIM 인코딩 및 확산 모델 차이를 사용하여 텍스트 가이드 의미론적 이미지 편집을 위한 영역 마스크를 자동으로 추론함으로써 수동 마스크 없이도 로컬 편집이 가능하고 ImageNet, COCO, 및 Imagen으로 생성된 이미지에서 강력한 결과를 달성합니다.

ABSTRACT

Image generation has recently seen tremendous advances, with diffusion models allowing to synthesize convincing images for a large variety of text prompts. In this article, we propose DiffEdit, a method to take advantage of text-conditioned diffusion models for the task of semantic image editing, where the goal is to edit an image based on a text query. Semantic image editing is an extension of image generation, with the additional constraint that the generated image should be as similar as possible to a given input image. Current editing methods based on diffusion models usually require to provide a mask, making the task much easier by treating it as a conditional inpainting task. In contrast, our main contribution is able to automatically generate a mask highlighting regions of the input image that need to be edited, by contrasting predictions of a diffusion model conditioned on different text prompts. Moreover, we rely on latent inference to preserve content in those regions of interest and show excellent synergies with mask-based diffusion. DiffEdit achieves state-of-the-art editing performance on ImageNet. In addition, we evaluate semantic image editing in more challenging settings, using images from the COCO dataset as well as text-based generated images.

연구 동기 및 목표

입력 이미지를 가능한 한 많이 보존하면서 텍스트 변환을 적용하는 의미론적 이미지 편집을 촉진한다.
서로 다른 텍스트 하에서 확산 모델 예측으로부터 편집 영역을 자동으로 추론하여 사용자가 제공하는 마스크의 필요성을 제거한다.
편집된 영역 내부의 입력 내용을 더 잘 보존하기 위해 DDIM 인코딩을 활용한다.
마스크 가이던스와 조건부 확산을 결합하여 고품질의 자연스러운 편집을 달성한다.
이전의 확산 기반 편집 방법에 비해 이점에 대한 이론적 및 실증 분석을 제공한다.

제안 방법

편집 텍스트 Q와 기준/빈 텍스트하에서 노이즈 추정을 비교하여 편집 마스크 M을 추론하기 위해 텍스트 조건부 확산 모델을 사용한다.
무조건 모델(텍스트 없음)을 사용하여 입력 이미지를 DDIM 인코딩으로 잠재 공간 y_r로 인코딩한다.
편집 텍스트 Q에 조건화된 디코딩을 수행하고 추론된 마스크로 가이드를 제공하며 배경 픽셀을 인코딩된 잠재 x_t로 치환하여 로컬 편집을 생성한다.
마스크 가이드 DDIM 업데이트를 통합: y_t' = M y_t + (1 - M) x_t, 인코딩 비율 r을 통해 편집 강도를 제어하고 denoising 단계를 설정한다.
실제 Lipschitz 및 경계 가정 하에서 unconditional/conditional 노이즈 추정이 유사할 때 DiffEdit의 DDIM-인코딩 편집이 SDEdit의 노이즈 추가보다 더 촘촘한 경계 값을 보임을 설명하는 이론적 비교(Proposition 1)를 제공한다.

실험 결과

연구 질문

RQ1다른 텍스트 프롬프트에서의 예측을 대조함으로써 사용자가 제공한 마스크 없이도 국소 영역만 편집하도록 확산 모델을 조정할 수 있는가?
RQ2DDIM 인코딩을 통해 입력 이미지를 인코딩하는 것이 외관 보존과 편집의 매끄러운 통합에 도움이 되는가?
RQ3DDIM-인코딩 마스킹을 사용할 때 편집 강도와 원본 이미지에 대한 충실도 사이에 어떤 트레이드오프가 발생하는가?
RQ4ImageNet, COCO, Imagen 생성 이미지와 같은 데이터셋에서 이전의 확산 기반 편집 방법에 비해 DiffEdit의 성능은 어떤가?
RQ5참조 텍스트가 실제로 마스크 품질과 편집 결과를 향상시키는가?

주요 결과

DiffEdit는 ImageNet에서 이전의 확산 기반 방법에 비해 최첨단 편집 성능을 달성한다.
추정된 마스크와 DDIM 인코딩은 ImageNet, COCO 및 Imagen 생성 이미지에서 SDEdit 및 기타 기준선보다 CSFID–LPIPS 트레이드오프를 더 잘 제공한다.
마스킹과 DDIM 인코딩 모두 단독으로 결과를 개선하고 이들의 결합이 가장 좋은 트레이드오프를 제공한다.
참조 텍스트(원래 이미지 캡션)를 사용하여 마스를 계산하면 쿼리와 참조가 다루어지지 않는 영역에 집중하여 편집을 더 잘 만들 수 있어 특히 Imagen 데이터에서 더 나은 편집 결과를 얻는다.
이론적 분석(Proposition 1)은 현실적인 Lipschitz 및 경계 가정 하에서 DDIM-인코딩 편집이 단순한 SDEdit의 노이즈 기반 편집보다 입력 이미지에 대한 편집 거리를 더 촘촘한 경계로 보낸다는 것을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.