[논문 리뷰] Slot-ID: Identity-Preserving Video Generation from Reference Videos via Slot-Based Temporal Identity Encoding
Slot-ID는 짧은 기준 영상과 Sinkhorn 경로 슬롯 인코더를 사용하여 프롬프트에 충실하고 정체성을 보존하는 비디오를 생성하는 튜닝-프리 정체성 조건화 방법을 제시합니다.
Producing prompt-faithful videos that preserve a user-specified identity remains challenging: models need to extrapolate facial dynamics from sparse reference while balancing the tension between identity preservation and motion naturalness. Conditioning on a single image completely ignores the temporal signature, which leads to pose-locked motions, unnatural warping, and "average" faces when viewpoints and expressions change. To this end, we introduce an identity-conditioned variant of a diffusion-transformer video generator which uses a short reference video rather than a single portrait. Our key idea is to incorporate the dynamics in the reference. A short clip reveals subject-specific patterns, e.g., how smiles form, across poses and lighting. From this clip, a Sinkhorn-routed encoder learns compact identity tokens that capture characteristic dynamics while remaining pretrained backbone-compatible. Despite adding only lightweight conditioning, the approach consistently improves identity retention under large pose changes and expressive facial behavior, while maintaining prompt faithfulness and visual realism across diverse subjects and prompts.
연구 동기 및 목표
- 단일 이미지 조건화를 넘어서 텍스트-대-비디오 생성에서 정체성 보존을 개선하려는 동기 부여.
- 짧은 기준 영상 클립에서 추출한 다이내믹스 인식 정체성 인코딩 제안.
- 동결된 diffusion–transformer 비디오 생성기에 백본 호환 Conditioning 메커니즘을 경량으로 통합.
제안 방법
- 짧은 기준 영상에서 S 개의 정체성 슬롯을 추출하는 슬롯 기반의 시간적 정체성 인코더를 도입.
- 엔트로피 최적 수송을 통해 참조 프레임과 토큰을 정렬하기 위해 Sinkhorn-경로 리더를 사용.
- 이미지-앵커 토큰과 정체성 슬롯을 게이팅 메커니즘으로 융합하여 생성 중 시간적 정체성 영향력을 제어.
- 고정된 Wan/DiT 비디오 백본에 텍스트 프롬프트 앞에 정체성 토큰을 추가하여 엔드-투-엔드 생성을 조건화.
- 베이스 확산 모델과 일관된 잠재 공간에서 v-예측 목표로 훈련.
- 백본을 동결한 상태로 경량 적응을 가능하게 하는 교차 주의 프로젝션에 LoRA를 적용.

실험 결과
연구 질문
- RQ1짧은 기준 영상이 관절 자세와 표현 변화가 커져도 견고하게 유지되는 정체성 다이내믹스를 포착하고 인코딩할 수 있는가?
- RQ2Sinkhorn 기반 슬롯 리더가 퍼-대상 미세조정 없이도 안정적이고 움직임에 강한 정체성 토큰을 제공하여 정체성 보존을 개선하는가?
- RQ3다이내믹스 정보를 반영한 정체성 조건화가 프롬프트 충실도와 시각적 리얼리스에 주제별과 프롬프트에 따라 어떤 영향을 미치는가?
- RQ4참조 프레임의 시간적 순서가 정체성 강건성에 미치는 영향은 무엇인가?
주요 결과
- Slot-ID는 현실감과 프롬프트 충실도를 유지하면서 최고 수준의 정체성 보존을 달성한다.
- Sinkhorn-경로 정체성 슬롯은 큰 포즈 변화와 표현적 행동 하에서도 안정적이고 움직임에 강한 신호를 제공하여 성능을 향상시킨다.
- Slot-ID는 얼굴 유사도와 전반적인 자연스러움에서 단일 이미지 기반 비교 및 다른 조건화 방식보다 우수하다.
- 변별 분석은 슬롯 기반 인코더와 시간적 순서가 모션 및 가림 속에서 정체성을 유지하는 데 필수적임을 보여준다.
- 인간 평가(MOS)는 Slot-ID가 얼굴 유사성, 시각 품질, 텍스트 정렬에서 가장 높은 순위를 차지함을 보여준다.
- 이 방법은 여전히 튜닝 없이 작동하고, 얼려둔 백본에 가벼운 조건화만 더해진다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.