[논문 리뷰] InstructEdit: Improving Automatic Masks for Diffusion-based Image Editing With User Instructions
InstructEdit는 언어 프로세서와 Grounded Segment Anything를 사용해 고품질 마스크를 생성하고 사용자의 지시에 따라 가이드되며, 세밀하고 다중 객체 이미지 편집과 개선된 편집 정확도를 가능하게 합니다.
Recent works have explored text-guided image editing using diffusion models and generated edited images based on text prompts. However, the models struggle to accurately locate the regions to be edited and faithfully perform precise edits. In this work, we propose a framework termed InstructEdit that can do fine-grained editing based on user instructions. Our proposed framework has three components: language processor, segmenter, and image editor. The first component, the language processor, processes the user instruction using a large language model. The goal of this processing is to parse the user instruction and output prompts for the segmenter and captions for the image editor. We adopt ChatGPT and optionally BLIP2 for this step. The second component, the segmenter, uses the segmentation prompt provided by the language processor. We employ a state-of-the-art segmentation framework Grounded Segment Anything to automatically generate a high-quality mask based on the segmentation prompt. The third component, the image editor, uses the captions from the language processor and the masks from the segmenter to compute the edited image. We adopt Stable Diffusion and the mask-guided generation from DiffEdit for this purpose. Experiments show that our method outperforms previous editing methods in fine-grained editing applications where the input image contains a complex object or multiple objects. We improve the mask quality over DiffEdit and thus improve the quality of edited images. We also show that our framework can accept multiple forms of user instructions as input. We provide the code at https://github.com/QianWangX/InstructEdit.
연구 동기 및 목표
- 사용자 지시로부터 매뉴얼 마스크 없이도 세밀한 이미지 편집을 가능하게 한다.
- 다중 객체 이미지에서 객체 로컬라이제이션 및 편집 정확도 향상.
- 사전 학습된 언어, 분할 및 확산 모델을 활용하여 파이프라인을 자동화한다.
제안 방법
- 큰 언어 모델로 사용자의 지시를 파싱하여 분할 프롬프트와 입력/편집 캡션을 생성합니다.
- 세그먼트 프롬프트를 바탕으로 Grounded Segment Anything(Grounded SAM)을 사용하여 고품질 마스크를 생성합니다.
- 입력 캡션과 편집 캡션을 이용해 마스크를 더한 확산 기반 편집기(마스크-guided DDIM이 적용된 Stable Diffusion)로 이미지를 편집합니다.
- DDIM 역변환을 사용하여 입력 이미지를 노이즈 텐서로 인코딩하고 편집 강도를 인코딩 비율 r로 제어합니다.
- 지시가 불분명할 때 BLIP2를 도입하여 이미지를 설명하고 프롬프트를 개선할 수 있습니다.
- LPIPS, CLIP 점수, CLIP 방향 유사도 및 사용자 연구를 통해 편집 품질을 평가합니다.
실험 결과
연구 질문
- RQ1수행된 지시를 효과적으로 파싱하여 수동 마스크 없이 세그먼트 및 편집 프롬프트를 구동할 수 있는가?
- RQ2Grounded SAM을 이용한 바인딩 기반 마스킹이 마스크 없는 대조군에 비해 다중 객체 이미지에서 미세 편집을 개선하는가?
- RQ3단일 객체 및 다중 객체 시나리오에서 지시 주도 편집이 의미 보존과 지시 준수 측면에서 어떻게 성능을 보이는가?
주요 결과
| 방법 | LPIPS ↓ | CLIP 점수 ↑ | CLIP 방향 유사도 ↑ |
|---|---|---|---|
| MDP-ε_t | 0.214 | 26.414 | 0.079 |
| InstructPix2Pix | 0.290 | 25.844 | 0.114 |
| DiffEdit | 0.167 | 26.847 | 0.106 |
| InstructEdit | 0.121 | 27.404 | 0.082 |
- InstructEdit는 벤치마크 대비 정량적 지표에서 의미 보존 및 지시 정렬이 더 우수하다.
- InstructEdit는 DiffEdit에 비해 마스크 품질을 향상시켜 복잡한 장면에서 이미지 편집 정확도가 높아진다.
- Grounded SAM을 통해 대상 객체나 영역을 위치시키고 과도한 확산이나 위치 이탈을 줄이며 편집한다.
- BLIP2 보조 프롬프트는 사용자의 설명이 모호하거나 불완전할 때 편집 품질을 향상시킨다.
- 사용자 연구에서 10개의 편집에서 InstructEdit가 기본 방식보다 선호도가 높게 나타났다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.