QUICK REVIEW

[논문 리뷰] AnyDoor: Zero-shot Object-level Image Customization

Xi Chen, Lianghua Huang|arXiv (Cornell University)|2023. 07. 18.

Generative Adversarial Networks and Image Synthesis인용 수 11

한 줄 요약

AnyDoor는 아이덴티티(identity)와 디테일(detail) 특징을 인코딩하고 이를 사전 학습된 확산 모델에 주입하여 사용자가 지정한 씬 위치로 타깃 객체를 제로샷으로 텔레포트하는 확산 기반 시스템이며, 강력한 일반화를 위해 비디오와 이미지 데이터로 학습되었습니다.

ABSTRACT

This work presents AnyDoor, a diffusion-based image generator with the power to teleport target objects to new scenes at user-specified locations in a harmonious way. Instead of tuning parameters for each object, our model is trained only once and effortlessly generalizes to diverse object-scene combinations at the inference stage. Such a challenging zero-shot setting requires an adequate characterization of a certain object. To this end, we complement the commonly used identity feature with detail features, which are carefully designed to maintain texture details yet allow versatile local variations (e.g., lighting, orientation, posture, etc.), supporting the object in favorably blending with different surroundings. We further propose to borrow knowledge from video datasets, where we can observe various forms (i.e., along the time axis) of a single object, leading to stronger model generalizability and robustness. Extensive experiments demonstrate the superiority of our approach over existing alternatives as well as its great potential in real-world applications, such as virtual try-on and object moving. Project page is https://damo-vilab.github.io/AnyDoor-Page/.

연구 동기 및 목표

이미지에서 제로샷이면서 신원 보존된 객체 재배치의 필요성을 제시한다.
확산 기반 구성에 아이덴티티 토큰과 디테일 맵을 사용하여 타깃 객체의 표현을 제안한다.
비디오에서 파생된 외관 변화와 대규모 이미지 데이터를 활용하여 강건하고 일반화 가능한 모델을 학습한다.
추론 시 객체별 미세 조정 없이 고충실도이고 다양하게 객체를 재배치하도록 한다.

제안 방법

배경 제거 후 자기감독 인코더(DINO-V2)에서 나온 아이덴티티 토큰으로 타깃 객체를 표현한다.
Sobel 기반 하이패스 필터와 콜라주 같은 접근을 통해 고주파 디테일 맵을 생성하고 질감을 보존하면서 변화를 허용한다.
가이드를 위해 교차 주의(ID)와 특징 연결(세부 정보)으로 Stable Diffusion에 ID 토큰과 디테일 맵을 주입하여 가이드를 제공한다.
다양한 영상 프레임(다른 씬의 동일 객체)과 다양한 이미지로 학습하여 외관 및 씬 변화를 포착한다.
비디오 데이터의 초기 스텝(포즈/구조)과 이미지 데이터의 후속 스텝(질감)을 균형 있게 다루기 위해 적응적 타임스텝 샘플링을 사용한다.
추론 시 씬 영역을 잘라내고 크기를 조정하며 임의의 종횡비 및 영역 크기에 맞추기 위해 확대 전략(줌-인)을 적용한다.

실험 결과

연구 질문

RQ1제로샷 확산 기반 생성이 씬 내에서 유연한 배치를 허용하면서 객체의 신원을 보존할 수 있는가?
RQ2정체성 표현을 디테일 특징으로 풍부하게 하는 것이 로컬 편집에서 아이디 일관성과 텍스처 충실도를 향상시키는가?
RQ3비디오에서 파생된 외관 변화를 이미지 다양성과 결합하는 것이 보지 못한 객체-씬 조합에 대한 일반화를 향상시키는가?
RQ4적응적 학습 전략이 멀티모달 데이터를 활용하여 객체 재배치의 현실감과 일관성을 높이는 방법은 무엇인가?

주요 결과

모델	품질	충실도	다양성
Paint-by-Example [ 56 ]	2.71	2.10	3.04
Graphit [ 21 ]	2.65	2.11	2.84
AnyDoor (ours)	3.04	3.06	2.88

AnyDoor는 사용자 연구에서 기준 기반 방법들보다 더 높은 충실도와 아이덴티티 보존을 달성합니다(품질/충실도/다양성 지표가 AnyDoor를 선호).
헤드 투 헤드 사용자 연구에서 AnyDoor는 Fidelity와 Quality에서 Paint-by-Example 및 Graphit보다 높게 점수받았고, Diversity는 경쟁적이다.
분리 실험은 DINO-V2의 사용, 고주파 디테일 맵, 그리고 적응적 타임스텝 샘플링이 각각 타깃 객체에 대한 CLIP 및 DINO 유사도 향상에 기여함을 보여준다.
AnyDoor는 다중 객체 구성과 가상 시착, 객체 이동/교환과 같은 실용적 응용을 객체별 튜닝 없이 가능하게 한다.
DreamBooth 파생 벤치마크에 대한 질적 및 양적 평가 결과, 객체 아이덴티티 보존 및 장면 조화가 향상되었음을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.