[논문 리뷰] InstructPix2Pix: Learning to Follow Image Editing Instructions
확산 기반 모델이 GPT-3와 Stable Diffusion에서 생성된 대규모 합성 페어 데이터 세트를 학습에 활용하여 인간이 작성한 지침으로 이미지를 편집하는 방법을 학습하고, 각 예시별 미세조정 없이 실제 이미지를 제로샷으로 편집 가능하도록 한다.
We propose a method for editing images from human instructions: given an input image and a written instruction that tells the model what to do, our model follows these instructions to edit the image. To obtain training data for this problem, we combine the knowledge of two large pretrained models -- a language model (GPT-3) and a text-to-image model (Stable Diffusion) -- to generate a large dataset of image editing examples. Our conditional diffusion model, InstructPix2Pix, is trained on our generated data, and generalizes to real images and user-written instructions at inference time. Since it performs edits in the forward pass and does not require per example fine-tuning or inversion, our model edits images quickly, in a matter of seconds. We show compelling editing results for a diverse collection of input images and written instructions.
연구 동기 및 목표
- 자연어 지침에 따라 전체 이미지 설명이 필요하지 않도록 이미지를 편집할 수 있는 시스템을 동기화한다.
- 사전 학습된 모델에서 대규모 다중 모달 학습 데이터를 생성해 데이터 병목 현상을 해결한다.
- 사례별 미세조정 없이도 하나의 순전파로 다양한 편집을 적용할 수 있는 확산 기반 편집기를 개발한다.
제안 방법
- 소수의 인간 작성 셋트에 대해 GPT-3를 미세조정하고 LAION 캡션에 적용하여 입력 캡션, 편집 지시문, 출력 캡션의 대규모 페어 데이터셋을 만든다.
- Caption 쌍을 Stable Diffusion과 Prompt-to-Prompt를 사용하여 이미지 쌍으로 변환해 편집 간 시각적 일관성을 촉진한다.
- 입력 이미지와 편집 지시문 모두에 조건부로 작용하는 잠재 확산 모델(InstructPix2Pix)을 학습시켜 순전파 편집을 수행한다.
- 입력 이미지 cI와 지시문 cT의 두 조건 스트림으로 분류기-프리 가이던스를 적용하고 입력에 대한 충실도와 지시 준수 사이의 균형을 맞추기 위해 가이던스 가중치 sI와 sT를 조정한다.
- 미리 학습된 Stable Diffusion 체크포인트에서 편집기를 초기화하고 입력을 인코딩된 입력 이미지를 위한 채널로 확장한다.
- 생성된 이미지 쌍을 CLIP 기반 방향 유사도로 필터링하여 데이터 품질을 향상시킨다.
![Figure 2 : Our method consists of two parts: generating an image editing dataset, and training a diffusion model on that dataset. (a) We first use a finetuned GPT-3 to generate instructions and edited captions. (b) We then use StableDiffusion [ 52 ] in combination with Prompt-to-Prompt [ 17 ] to gen](https://ar5iv.labs.arxiv.org/html/2211.09800/assets/x2.png)
실험 결과
연구 질문
- RQ1확산 기반 편집기가 합성 다중 모달 학습 데이터로 자연어 편집 지시를 따르는 것을 학습할 수 있는가?
- RQ2두 가지 조건 스트림(입력 이미지와 편집 지시)과 분류기-프리 가이던스의 결합이 편집 충실도와 지시 준수에 어떤 영향을 미치는가?
- RQ3데이터셋 규모와 필터링이 더 크거나 복잡한 편집 수행 능력에 어떤 영향을 미치는가?
- RQ4실제 이미지와 인간 작성 지시에 대해 추론 시 모델이 얼마나 잘 일반화하는가?
- RQ5데이터 주도적, 합성 학습 파이프라인을 따르는 편집 지시의 주요 한계와 편향은 무엇인가?
주요 결과
- 모델은 사례별 미세조정 없이 실제 이미지 및 인간 작성 지시로 제로샷 일반화를 달성한다.
- 대략 454k개의 생성 편집 데이터셋은 스타일 변경, 배경 교체, 객체 변경 등 다양한 편집을 가능하게 한다.
- 두 조건 가이던스(두 조건 스트림)로 입력 이미지에 대한 충실도와 지시 준수 사이의 균형을 맞출 수 있으며, sT는 약 5–10, sI는 약 1–1.5일 때 강력한 결과를 낸다.
- InstructPix2Pix는 SDEdit와 Text2Live에 비해 입력 이미지의 일관성을 더 많이 보존하면서 지시로 안내된 명확한 편집을 달성한다.
- ablation 연구는 더 큰 학습 데이터와 CLI P 필터링이 더 큰 편집을 수행하고 이미지 일관성을 유지하는 능력을 향상시킨다는 것을 보여준다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.