[논문 리뷰] InstantBooth: Personalized Text-to-Image Generation without Test-Time Finetuning
InstantBooth는 입력 이미지를 텍스트적 개념으로 변환하고 프리트레이닝된 확산 모델을 동결한 상태에서 어댑터 계층을 통해 풍부한 시각 특성을 주입함으로써 테스트 시점 파인튜닝 없이도 즉시, 신원 보존된 개인화 텍스트-투-이미지 생성을 가능하게 한다.
Recent advances in personalized image generation allow a pre-trained text-to-image model to learn a new concept from a set of images. However, existing personalization approaches usually require heavy test-time finetuning for each concept, which is time-consuming and difficult to scale. We propose InstantBooth, a novel approach built upon pre-trained text-to-image models that enables instant text-guided image personalization without any test-time finetuning. We achieve this with several major components. First, we learn the general concept of the input images by converting them to a textual token with a learnable image encoder. Second, to keep the fine details of the identity, we learn rich visual feature representation by introducing a few adapter layers to the pre-trained model. We train our components only on text-image pairs without using paired images of the same concept. Compared to test-time finetuning-based methods like DreamBooth and Textual-Inversion, our model can generate competitive results on unseen concepts concerning language-image alignment, image fidelity, and identity preservation while being 100 times faster.
연구 동기 및 목표
- 학습 가능한 이미지 인코더를 통해 입력 이미지를 텍스트 임베딩으로 매핑하여 일반적인 개념을 학습한다.
- 고정된 사전 학습 확산 모델에 어댑터 계층을 통해 풍부한 시각 패치 특징을 주입하여 미세한 신원 세부 정보를 보존한다.
- 같은 개념의 매칭 이미지를 필요로 하지 않고 텍스트-이미지 쌍만으로 학습하여 미지의 개념에 대한 일반화를 가능하게 한다.
- 파인튜닝 기반 개인화 방법에 비해 훨씬 빠른 추론 속도로 경쟁력 있는 언어-이미지 정렬 및 신원 보존을 달성한다.
제안 방법
- 학습 가능한 이미지 인코더를 이용해 입력 이미지를 간결한 텍스트형 개념 임베딩으로 변환하고 이미지 간 특징을 평균한다.
- 프롬프트에 고유 식별자를 삽입하고 CLIP 기반 텍스트 임베딩에서 그 임베딩을 개념 임베딩으로 대체한다.
- 고정된 U-Net의 자기- 및 교차 주의 블록 사이에 학습 가능 어댑터 계층을 추가하여 입력 이미지의 풍부한 패치 특징을 주입하되 기본 모델은 고정한다.
- 테스트 시점 파인튜닝 없이 확산 모델의 디노이징 손실을 이용해 오직 어댑터와 이미지 인코더 헤드만 학습한다.
- 개념 토큰 재정규화와 균형 잡힌 어댑터 가중치(beta)를 사용해 신원 보존을 유지하면서 언어-이미지 정렬을 유지한다.
실험 결과
연구 질문
- RQ1보지 못한(unseen) 개념에 대해 테스트 시점 파인튜닝 없이도 개인화된 텍스트-투-이미지 생성을 달성할 수 있는가?
- RQ2방법이 주제의 신원(identity)을 얼마나 잘 보존하면서 언어 지시 기반 생성 품질을 유지하는가?
- RQ3신원 보존과 언어-이미지 정렬 간의 트레이드오프는 무엇이며 추론 중 어떻게 제어할 수 있는가?
- RQ4제안된 접근법이 속도와 충실도 측면에서 파인튜닝 기반 방법과 어떻게 비교되는가?
- RQ5추론 중 입력 이미지의 수가 달라져도 재학습 없이 모델이 처리할 수 있는가?
주요 결과
| Method | Align ↑ | Face dist ↓ | Recon ↑ | Time (s) ↓ |
|---|---|---|---|---|
| Textual Inversion (TI) | 0.2556 | 1.5462 | 0.7832 | ~1500 |
| DreamBooth (DB) | 0.3088 | 1.2281 | 0.8335 | ~600 |
| Ours | 0.3140 | 1.1901 | 0.7329 | 6 |
| Ours + M | 0.3135 | 1.1899 | - | 6 |
- 본 방법은 DreamBooth 및 Textual Inversion과 비교하여 경쟁력 있는 정렬 및 신원 보존을 달성하되 테스트 시점 파인튜닝이 필요하지 않다.
- 추론 속도는 파인튜닝 기반 개인화 방법보다 100배 빠르다.
- 풍부한 패치 특징의 어댑터 기반 통합은 고정된 사전 학습 생성기를 변경하지 않고도 미세한 신원 보존을 가능하게 한다.
- 개념 재정규화와 균형 잡힌 beta 매개변수는 언어 이해를 개선하고 언어 잊힘을 감소시킨다.
- 이 방법은 보지 않은 개념과 다수의 입력 이미지를 지원하며 프롬프트 전반에 걸쳐 고충실도, 신원 일관성 있는 이미지를 생성한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.