[논문 리뷰] DiffEdit: Diffusion-based semantic image editing with mask guidance
DiffEdit는 DDIM 인코딩 및 확산 모델 차이를 사용하여 텍스트 가이드 의미론적 이미지 편집을 위한 영역 마스크를 자동으로 추론함으로써 수동 마스크 없이도 로컬 편집이 가능하고 ImageNet, COCO, 및 Imagen으로 생성된 이미지에서 강력한 결과를 달성합니다.
Image generation has recently seen tremendous advances, with diffusion models allowing to synthesize convincing images for a large variety of text prompts. In this article, we propose DiffEdit, a method to take advantage of text-conditioned diffusion models for the task of semantic image editing, where the goal is to edit an image based on a text query. Semantic image editing is an extension of image generation, with the additional constraint that the generated image should be as similar as possible to a given input image. Current editing methods based on diffusion models usually require to provide a mask, making the task much easier by treating it as a conditional inpainting task. In contrast, our main contribution is able to automatically generate a mask highlighting regions of the input image that need to be edited, by contrasting predictions of a diffusion model conditioned on different text prompts. Moreover, we rely on latent inference to preserve content in those regions of interest and show excellent synergies with mask-based diffusion. DiffEdit achieves state-of-the-art editing performance on ImageNet. In addition, we evaluate semantic image editing in more challenging settings, using images from the COCO dataset as well as text-based generated images.
연구 동기 및 목표
- 입력 이미지를 가능한 한 많이 보존하면서 텍스트 변환을 적용하는 의미론적 이미지 편집을 촉진한다.
- 서로 다른 텍스트 하에서 확산 모델 예측으로부터 편집 영역을 자동으로 추론하여 사용자가 제공하는 마스크의 필요성을 제거한다.
- 편집된 영역 내부의 입력 내용을 더 잘 보존하기 위해 DDIM 인코딩을 활용한다.
- 마스크 가이던스와 조건부 확산을 결합하여 고품질의 자연스러운 편집을 달성한다.
- 이전의 확산 기반 편집 방법에 비해 이점에 대한 이론적 및 실증 분석을 제공한다.
제안 방법
- 편집 텍스트 Q와 기준/빈 텍스트하에서 노이즈 추정을 비교하여 편집 마스크 M을 추론하기 위해 텍스트 조건부 확산 모델을 사용한다.
- 무조건 모델(텍스트 없음)을 사용하여 입력 이미지를 DDIM 인코딩으로 잠재 공간 y_r로 인코딩한다.
- 편집 텍스트 Q에 조건화된 디코딩을 수행하고 추론된 마스크로 가이드를 제공하며 배경 픽셀을 인코딩된 잠재 x_t로 치환하여 로컬 편집을 생성한다.
- 마스크 가이드 DDIM 업데이트를 통합: y_t' = M y_t + (1 - M) x_t, 인코딩 비율 r을 통해 편집 강도를 제어하고 denoising 단계를 설정한다.
- 실제 Lipschitz 및 경계 가정 하에서 unconditional/conditional 노이즈 추정이 유사할 때 DiffEdit의 DDIM-인코딩 편집이 SDEdit의 노이즈 추가보다 더 촘촘한 경계 값을 보임을 설명하는 이론적 비교(Proposition 1)를 제공한다.
실험 결과
연구 질문
- RQ1다른 텍스트 프롬프트에서의 예측을 대조함으로써 사용자가 제공한 마스크 없이도 국소 영역만 편집하도록 확산 모델을 조정할 수 있는가?
- RQ2DDIM 인코딩을 통해 입력 이미지를 인코딩하는 것이 외관 보존과 편집의 매끄러운 통합에 도움이 되는가?
- RQ3DDIM-인코딩 마스킹을 사용할 때 편집 강도와 원본 이미지에 대한 충실도 사이에 어떤 트레이드오프가 발생하는가?
- RQ4ImageNet, COCO, Imagen 생성 이미지와 같은 데이터셋에서 이전의 확산 기반 편집 방법에 비해 DiffEdit의 성능은 어떤가?
- RQ5참조 텍스트가 실제로 마스크 품질과 편집 결과를 향상시키는가?
주요 결과
- DiffEdit는 ImageNet에서 이전의 확산 기반 방법에 비해 최첨단 편집 성능을 달성한다.
- 추정된 마스크와 DDIM 인코딩은 ImageNet, COCO 및 Imagen 생성 이미지에서 SDEdit 및 기타 기준선보다 CSFID–LPIPS 트레이드오프를 더 잘 제공한다.
- 마스킹과 DDIM 인코딩 모두 단독으로 결과를 개선하고 이들의 결합이 가장 좋은 트레이드오프를 제공한다.
- 참조 텍스트(원래 이미지 캡션)를 사용하여 마스를 계산하면 쿼리와 참조가 다루어지지 않는 영역에 집중하여 편집을 더 잘 만들 수 있어 특히 Imagen 데이터에서 더 나은 편집 결과를 얻는다.
- 이론적 분석(Proposition 1)은 현실적인 Lipschitz 및 경계 가정 하에서 DDIM-인코딩 편집이 단순한 SDEdit의 노이즈 기반 편집보다 입력 이미지에 대한 편집 거리를 더 촘촘한 경계로 보낸다는 것을 보여준다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.