QUICK REVIEW

[논문 리뷰] In-Context Learning Unlocked for Diffusion Models

Zhendong Wang, Yifan Jiang|arXiv (Cornell University)|2023. 05. 01.

Multimodal Machine Learning Applications인용 수 12

한 줄 요약

Prompt Diffusion은 vision-language 프롬프트를 통해 확산 기반 생성 모델의 컨텍스트 내 학습을 가능하게 하며, 여섯 가지 작업에서 학습된 프롬프트를 통해 보지 못한 작업 일반화와 텍스트 가이드 편집을 가능하게 한다.

ABSTRACT

We present Prompt Diffusion, a framework for enabling in-context learning in diffusion-based generative models. Given a pair of task-specific example images, such as depth from/to image and scribble from/to image, and a text guidance, our model automatically understands the underlying task and performs the same task on a new query image following the text guidance. To achieve this, we propose a vision-language prompt that can model a wide range of vision-language tasks and a diffusion model that takes it as input. The diffusion model is trained jointly over six different tasks using these prompts. The resulting Prompt Diffusion model is the first diffusion-based vision-language foundation model capable of in-context learning. It demonstrates high-quality in-context generation on the trained tasks and generalizes effectively to new, unseen vision tasks with their respective prompts. Our model also shows compelling text-guided image editing results. Our framework aims to facilitate research into in-context learning for computer vision. We share our code and pre-trained models at https://github.com/Zhendong-Wang/Prompt-Diffusion.

연구 동기 및 목표

NLP를 넘어서는 비전 과제에서 컨텍스트 내 학습의 필요성을 동기 부여한다.
작업 예제와 질의를 연결하기 위한 비전-언어 프롬프트 설계를 제안한다.
Prompt Diffusion을 확산 기반의 비전-언어 기본 모델로 개발한다.
컨텍스트 내 학습과 보지 못한 작업에 대한 일반화를 입증한다.
텍스트 가이드를 통한 이미지 편집 가능성을 보여준다.

제안 방법

텍스트 가이드, 예시 쌍 (image1 -> image2), 그리고 이미지 질의 (image3)를 인코딩하여 대상 이미지4를 생성하는 멀티모달 비전-언어 프롬프트를 도입한다.
비전-언어 프롬프트를 수용하도록 ControlNet과 Stable Diffusion 아키텍처를 수정하여 Prompt Diffusion을 구축한다.
Stable Diffusion v1.5 체크포인트에서 여섯 개의 비전-언어 작업(세 개의 순방향, 세 개의 역방향)에 대해 Prompt Diffusion을 미세조정한다.
다양한 도메인에 걸친 컨텍스트 내 학습을 촉진하기 위해 프롬프트의 무작위 샘플링으로 작업을 공동으로 학습한다.
훈련 중 10% 텍스트 가이드 드롭아웃으로 분류기-자유 지침을 적용하여 강건성을 향상시킨다.
역방향 작업에는 제로샷 FID를, 순방향 작업에는 RMSE를 사용하여 질적 및 양적으로 평가한다.

실험 결과

연구 질문

RQ1확산 기반 모델이 단일 비전-언어 프롬프트에서 여러 비전-언어 작업을 수행하도록 학습할 수 있는가?
RQ2태스크별 파인튜닝 없이도 공동 다중 작업 미세조정이 보지 못한 비전-언어 작업으로 일반화할 수 있는가?
RQ3이 프레임워크에서 프롬프트를 통해 텍스트 가이딩 편집을 신뢰할 수 있게 제어할 수 있는가?
RQ4훈련된 작업에서 Prompt Diffusion은 작업별 기준선과 어떻게 비교되며 새로운 작업으로의 일반화는 얼마나 잘 되는가?

주요 결과

Methods	FID Depth-to-Image	FID Hed-to-Image	FID Seg-to-Image	RMSE Image-to-Depth	RMSE Image-to-Hed	RMSE Image-to-Seg
CN(FT)	19.81	13.07	20.71	0.20	0.18	0.36
Prompt Diffusion (ours)	18.60	13.35	19.46	0.21	0.14	0.31

Prompt Diffusion은 학습된 작업에 대해 높은 품질의 컨텍스트 내 생성을 달성하고 프롬프트를 통해 보지 못한 작업으로 효율적으로 일반화한다.
역방향 작업에서 Prompt Diffusion은 CN(FT) 대비 경쟁력 있는 제로샷 FID를 달성한다.
순방향 작업에서 Prompt Diffusion은 여러 지표에서 기준선과 비교하여 동등하거나 더 나은 RMSE를 달성한다.
모델은 텍스트 가이던스 및 이미지 조건에 의해 제어 가능한 이미지 편집을 지원한다.
여섯 개 작업에 걸친 공동 학습은 작업 간 대응 및 컨텍스트 내 능력 학습에 효과적이다.
질적 결과는 스타일 전송 및 잘못 정렬된 예시 쌍과 같은 작업으로의 일반화를 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.