QUICK REVIEW

[논문 리뷰] Taming Encoder for Zero Fine-tuning Image Customization with Text-to-Image Diffusion Models

Xuhui Jia, Yang Zhao|arXiv (Cornell University)|2023. 04. 05.

Generative Adversarial Networks and Image Synthesis인용 수 21

한 줄 요약

논문은 테스트 시간 최적화 없이 단일 이미지에서 대상 객체의 개인화 이미지를 가능하게 하는 프레임워크를 제시합니다. 객체 중심 인코더와 사전 학습된 확산 모델 위의 정규화된 공동 학습 전략을 사용합니다.

ABSTRACT

This paper proposes a method for generating images of customized objects specified by users. The method is based on a general framework that bypasses the lengthy optimization required by previous approaches, which often employ a per-object optimization paradigm. Our framework adopts an encoder to capture high-level identifiable semantics of objects, producing an object-specific embedding with only a single feed-forward pass. The acquired object embedding is then passed to a text-to-image synthesis model for subsequent generation. To effectively blend a object-aware embedding space into a well developed text-to-image model under the same generation context, we investigate different network designs and training strategies, and propose a simple yet effective regularized joint training scheme with an object identity preservation loss. Additionally, we propose a caption generation scheme that become a critical piece in fostering object specific embedding faithfully reflected into the generation process, while keeping control and editing abilities. Once trained, the network is able to produce diverse content and styles, conditioned on both texts and objects. We demonstrate through experiments that our proposed method is able to synthesize images with compelling output quality, appearance diversity, and object fidelity, without the need of test-time optimization. Systematic studies are also conducted to analyze our models, providing insights for future work.

연구 동기 및 목표

대상 객체별 미세 조정 없이도 확장 가능한 개인화된 이미지 합성을 동기 부여한다.
사전 학습된 텍스트-이미지 모델을 조건화하는 객체 임베딩 프레임워크를 개발한다.
객체 임베딩을 통합하되 편집 가능성과 객체 충실도를 유지한다.
객체 특정 생성을 향상시키기 위한 자막화 데이터 증강을 제안한다.
다양한 스타일과 객체를 단일 패스 생성으로 시연하고 저장소/계산 비용을 줄인다.

제안 방법

삽입된 교차 주의 모듈을 얼려진 사전 학습 확산 모델에 연결하여 객체 임베딩으로 조건화한다.
얼려진 CLIP 이미지 인코더(객체 인코더)와 얼려진 T5-XXL 텍스트 인코더를 임베딩으로 사용한다.
교차 참조 정규화를 포함한 정규화된 공동 학습 스킴을 적용해 편집성 및 객체 적합도를 보존한다.
객체 아이덴티티를 배경으로부터 분리하기 위한 객체 임베딩 마스킹을 구현한다.
PaLI 및 속성 분류기를 사용해 도메인 특화 학습 자막(자막 자동 생성)을 생성한다.
객체 임베딩의 효과적 활용을 가능하게 하기 위해 전체 네트워크를 끝에서 끝으로 학습한다(추가 주의만 학습하는 것이 아니라).

실험 결과

연구 질문

RQ1단일 객체 임베딩으로 테스트 시간 최적화 없이도 개인화 생성이 가능할까?
RQ2언어 가이드 편집 능력을 잃지 않으면서 사전 학습된 확산 모델에 객체 임베딩을 어떻게 통합할 수 있을까?
RQ3객체 아이덴티티를 보존하면서 텍스트 제어 가능성을 유지하는 학습 전략은 무엇인가?
RQ4자동 자막이 객체 특이적 합성 품질과 다양성을 향상시키는가?
RQ5고수준의 객체 개념을 포착해 강건한 개인화를 위한 최적의 인코더 선택은 무엇인가?

주요 결과

제안된 방법은 단일 정방향 패스에서 고품질의 개인화 이미지를 제공하며 아이덴티티 보존 및 프롬프트 정렬에서 Textual Inversion, DreamBooth, InstructPix2Pix를 능가합니다.
CLIP 기반 객체 임베딩은 VGG 기반 인코더보다 아이덴티티 보존 및 외관 변화에 더 나은 성능을 제공합니다.
교차 참조 정규화는 객체 아이덴티티를 이미지 특유의 단서로부터 분리해 아이덴티티 충실도와 다양성을 향상시킵니다.
전체 네트워크 미세조정이 추가 주의 레이어만 학습하는 것보다 아이덴티티 보존에 더 우수합니다.
자동 자막 생성은 일반 데이터셋과 도메인 특화 데이터셋 간의 도메인 차이를 줄여 텍스트–이미지 정렬 및 객체 충실도를 향상시킵니다.
이 접근법은 per-object 최적화를 피하고 객체 수에 관계없이 저장 비용이 일정하게 유지되므로 효율적이고 확장 가능합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.