[논문 리뷰] Pretraining is All You Need for Image-to-Image Translation
이 논문은 사전 학습된 확산 모델이 다양한 이미지 간 번역 태스크에 보편적 생성 사전으로 작용할 수 있음을 보여주고, 태스크별 어댑터와 학습 조정으로 여러 벤치마크에서 최첨단 결과를 달성한다.
We propose to use pretraining to boost general image-to-image translation. Prior image-to-image translation methods usually need dedicated architectural design and train individual translation models from scratch, struggling for high-quality generation of complex scenes, especially when paired training data are not abundant. In this paper, we regard each image-to-image translation problem as a downstream task and introduce a simple and generic framework that adapts a pretrained diffusion model to accommodate various kinds of image-to-image translation. We also propose adversarial training to enhance the texture synthesis in the diffusion model training, in conjunction with normalized guidance sampling to improve the generation quality. We present extensive empirical comparison across various tasks on challenging benchmarks such as ADE20K, COCO-Stuff, and DIODE, showing the proposed pretraining-based image-to-image translation (PITI) is capable of synthesizing images of unprecedented realism and faithfulness.
연구 동기 및 목표
- 대규모 사전 학습이 다양한 태스크에 걸친 조건부 이미지 합성을 향상시킬 수 있음을 동기 부여하고 입증한다.
- 사전 학습된 확산 모델(GLIDE)을 다운스트림 번역 태스크를 위한 의미적 잠재 사전으로 활용한다.
- 사전 학습된 잠재 공간으로 입력 조건을 매핑하기 위한 실용적인 두 단계 미세 조정 프로토콜을 개발한다.
- 적대적 확산 업샘플러와 지각적/적대적 손실을 활용하여 생성 품질을 향상시킨다.
- 조건화 충실도와 샘플 품질을 개선하기 위해 정규화된 classifier-free 가이던스를 제안한다.
제안 방법
- 다양한 텍스트-이미지 쌍으로 학습된 생성형 사전 학습 확산 프라이어(GLIDE)를 디코더로 사용한다.
- 입력(예: 세분화 마스크, 스케치, 깊이 맵)을 사전 학습된 잠재 공간으로 매핑하기 위해 태스크-특정 인코더 헤드를 부착한다.
- 두 단계 미세 조정: (1) 디코더를 고정한 채 인코더를 학습; (2) 인코더와 디코더를 엔드투엔드로 미세 조정.
- 고해상도 생성 시 열화와 지각적/적대적 손실을 활용한 적대적 확산 업샘플러로 질감을 개선한다.
- 조건화 충실도와 샘플 품질을 개선하기 위해 정규화된 classifier-free 가이던스를 도입한다.
- 64x64 기본 출력에서 256x256 이미지를 생성하기 위한 확산 기반 업샘플링을 갖춘 계층적 생성 구성을 사용한다.
실험 결과
연구 질문
- RQ1단일 사전 학습된 확산 모델이 여러 이미지-이미지 번역 태스크에 대해 보편적 사전으로 작용할 수 있는가?
- RQ2어떤 학습 전략들(두 단계 미세 조정, 적대적 업샘플링, 지각적/적대적 손실)이 번역 품질을 극대화하는가?
- RQ3표준 벤치마크(ADE20K, COCO-Stuff, DIODE)에서 PITI가 태스크별 또는 제로-백그라운드 학습 기반과 비교하여 어떤가?
- RQ4사전 학습이 제한된 다운스트림 데이터(few-shot 시나리오)에서 고품질 결과를 가능하게 하는가?
주요 결과
| 방법 | ADE20K | COCO (Mask) | Flickr (Mask) | COCO (Sketch) | Flickr (Sketch) | DIODE |
|---|---|---|---|---|---|---|
| Pix2PixHD | 35.3 | 37.5 | 26.1 | 27.1 | 16.8 | 18.2 |
| SPADE | 18.9 | 15.0 | 17.4 | 48.9 | 29.5 | 17.0 |
| OASIS | 14.8 | 8.8 | 10.5 | - | - | - |
| Ours (Scratch) | 16.3 | 13.0 | 10.6 | 13.0 | 9.4 | 13.9 |
| Ours | 8.9 | 5.2 | 6.1 | 8.8 | 6.0 | 11.5 |
- PITI는 다양한 태스크와 데이터셋에서 처음부터 학습된 기준선보다 큰 폭으로 우수하다.
- 두 단계 미세 조정이 최적의 결과를 제공하며, 사전 학습된 prior를 보존하면서 시맨틱 정렬을 가능하게 한다.
- 적대적 확산 업샘플링과 지각적/적대적 손실은 고해상도 출력에서 질감과 디테일을 크게 향상시킨다.
- 정규화된 classifier-free 가이던스는 강한 가이드 아래에서도 샘플 품질을 향상시키고 유해한 평균/분산 이동을 도입하지 않는다.
- ADE20K, COCO-Stuff, 및 DIODE에서 PITI는 태스크-특정 및 scratch 베이스라인보다 FID 면에서 최첨단에 준하는 개선을 달성한다; 표 1에 제시된 결과가 상당한 이득을 나타낸다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.