QUICK REVIEW

[논문 리뷰] InstantBooth: Personalized Text-to-Image Generation without Test-Time Finetuning

Jing Shi, Wei Xiong|arXiv (Cornell University)|2023. 04. 06.

Multimodal Machine Learning Applications인용 수 21

한 줄 요약

InstantBooth는 입력 이미지를 텍스트적 개념으로 변환하고 프리트레이닝된 확산 모델을 동결한 상태에서 어댑터 계층을 통해 풍부한 시각 특성을 주입함으로써 테스트 시점 파인튜닝 없이도 즉시, 신원 보존된 개인화 텍스트-투-이미지 생성을 가능하게 한다.

ABSTRACT

Recent advances in personalized image generation allow a pre-trained text-to-image model to learn a new concept from a set of images. However, existing personalization approaches usually require heavy test-time finetuning for each concept, which is time-consuming and difficult to scale. We propose InstantBooth, a novel approach built upon pre-trained text-to-image models that enables instant text-guided image personalization without any test-time finetuning. We achieve this with several major components. First, we learn the general concept of the input images by converting them to a textual token with a learnable image encoder. Second, to keep the fine details of the identity, we learn rich visual feature representation by introducing a few adapter layers to the pre-trained model. We train our components only on text-image pairs without using paired images of the same concept. Compared to test-time finetuning-based methods like DreamBooth and Textual-Inversion, our model can generate competitive results on unseen concepts concerning language-image alignment, image fidelity, and identity preservation while being 100 times faster.

연구 동기 및 목표

학습 가능한 이미지 인코더를 통해 입력 이미지를 텍스트 임베딩으로 매핑하여 일반적인 개념을 학습한다.
고정된 사전 학습 확산 모델에 어댑터 계층을 통해 풍부한 시각 패치 특징을 주입하여 미세한 신원 세부 정보를 보존한다.
같은 개념의 매칭 이미지를 필요로 하지 않고 텍스트-이미지 쌍만으로 학습하여 미지의 개념에 대한 일반화를 가능하게 한다.
파인튜닝 기반 개인화 방법에 비해 훨씬 빠른 추론 속도로 경쟁력 있는 언어-이미지 정렬 및 신원 보존을 달성한다.

제안 방법

학습 가능한 이미지 인코더를 이용해 입력 이미지를 간결한 텍스트형 개념 임베딩으로 변환하고 이미지 간 특징을 평균한다.
프롬프트에 고유 식별자를 삽입하고 CLIP 기반 텍스트 임베딩에서 그 임베딩을 개념 임베딩으로 대체한다.
고정된 U-Net의 자기- 및 교차 주의 블록 사이에 학습 가능 어댑터 계층을 추가하여 입력 이미지의 풍부한 패치 특징을 주입하되 기본 모델은 고정한다.
테스트 시점 파인튜닝 없이 확산 모델의 디노이징 손실을 이용해 오직 어댑터와 이미지 인코더 헤드만 학습한다.
개념 토큰 재정규화와 균형 잡힌 어댑터 가중치(beta)를 사용해 신원 보존을 유지하면서 언어-이미지 정렬을 유지한다.

실험 결과

연구 질문

RQ1보지 못한(unseen) 개념에 대해 테스트 시점 파인튜닝 없이도 개인화된 텍스트-투-이미지 생성을 달성할 수 있는가?
RQ2방법이 주제의 신원(identity)을 얼마나 잘 보존하면서 언어 지시 기반 생성 품질을 유지하는가?
RQ3신원 보존과 언어-이미지 정렬 간의 트레이드오프는 무엇이며 추론 중 어떻게 제어할 수 있는가?
RQ4제안된 접근법이 속도와 충실도 측면에서 파인튜닝 기반 방법과 어떻게 비교되는가?
RQ5추론 중 입력 이미지의 수가 달라져도 재학습 없이 모델이 처리할 수 있는가?

주요 결과

Method	Align ↑	Face dist ↓	Recon ↑	Time (s) ↓
Textual Inversion (TI)	0.2556	1.5462	0.7832	~1500
DreamBooth (DB)	0.3088	1.2281	0.8335	~600
Ours	0.3140	1.1901	0.7329	6
Ours + M	0.3135	1.1899	-	6

본 방법은 DreamBooth 및 Textual Inversion과 비교하여 경쟁력 있는 정렬 및 신원 보존을 달성하되 테스트 시점 파인튜닝이 필요하지 않다.
추론 속도는 파인튜닝 기반 개인화 방법보다 100배 빠르다.
풍부한 패치 특징의 어댑터 기반 통합은 고정된 사전 학습 생성기를 변경하지 않고도 미세한 신원 보존을 가능하게 한다.
개념 재정규화와 균형 잡힌 beta 매개변수는 언어 이해를 개선하고 언어 잊힘을 감소시킨다.
이 방법은 보지 않은 개념과 다수의 입력 이미지를 지원하며 프롬프트 전반에 걸쳐 고충실도, 신원 일관성 있는 이미지를 생성한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.