[논문 리뷰] TokenFlow: Consistent Diffusion Features for Consistent Video Editing
TokenFlow는 프레임 간 대응을 이용해 확산 특징을 프레임에 전파하여 학습 없이도 고품질의 텍스트 주도 비디오 편집이 가능하도록 시간적 일관성을 보장한다. 프레임별 편집 기준선에 비해 최첨단의 시간적 일관성을 달성한다.
The generative AI revolution has recently expanded to videos. Nevertheless, current state-of-the-art video models are still lagging behind image models in terms of visual quality and user control over the generated content. In this work, we present a framework that harnesses the power of a text-to-image diffusion model for the task of text-driven video editing. Specifically, given a source video and a target text-prompt, our method generates a high-quality video that adheres to the target text, while preserving the spatial layout and motion of the input video. Our method is based on a key observation that consistency in the edited video can be obtained by enforcing consistency in the diffusion feature space. We achieve this by explicitly propagating diffusion features based on inter-frame correspondences, readily available in the model. Thus, our framework does not require any training or fine-tuning, and can work in conjunction with any off-the-shelf text-to-image editing method. We demonstrate state-of-the-art editing results on a variety of real-world videos. Webpage: https://diffusion-tokenflow.github.io/
연구 동기 및 목표
- 사전 학습된 이미지 확산 모델을 사용하여 비디오 편집 품질과 시간적 일관성을 향상시키려는 동기를 제시한다.
- 편집 중 프레임 간 일관성을 강화하기 위해 확산 특징 공간을 활용한다.
- 일반적으로 사용되는 이미지 편집 방법과 호환되는 학습 없이 동작하는 프레임워크를 제공한다.
- 다양한 실제 비디오에서 최첨단 시간적 일관성을 시연한다.
- 확산 특징의 속성과 비디오 중복성 간의 관계를 분석한다.]
- method:[
- 레이어 전반에 걸쳐 DDIM 반전 비디오 프레임에서 확산 토큰을 추출한다.
- 하나의 다중 프레임에 걸친 확장 어텐션을 통해 공유된 글로벌 외양을 유도하기 위해 핵심 프레임 세트를 샘플링하고 공동으로 편집한다.
- 원래의 확산 특징 공간에서 최근접 이웃 대응을 사용하여 편집된 토큰을 비핵심 프레임으로 전파한다.
- 각 디노이즈 단계에서 TokenFlow 전파와 함께 핵심 프레임 편집을 결합하여 프레임 간 일관성을 유지한다.
- 어떤 이미지 편집 확산 방법(PnP, Meng 등, Zhang & Agrawala 등)으로도 전파를 지원한다.
- 왜곡 오차 및 사용자 연구를 통해 시간적 일관성을 평가하고, CLIP 유사도를 통해 충실도를 평가한다.]
- research_questions:[
- 사전 학습된 이미지 확산 모델을 사용할 때 확산 특징 공간의 일관성이 더 시간적으로 일관된 비디오 편집을 낳을 수 있는가?
- 핵심 프레임 편집과 특징 공간 전파를 결합하는 것이 프레임별 편집 기준선보다 구조와 모션 보존에 우수한가?
- 확산 특징이 자연 비디오의 시간적 중복성을 어떻게 반영하며, 이를 더 나은 편집에 활용할 수 있는가?]
- key_findings:[
- TokenFlow는 기준선보다 더 높은 시간적 일관성을 달성하고 왜곡 오차는 더 낮으며 사용자 선호도가 강하다.
- joint attention과 무작위 핵심 프레임 사용 버전이 프레임별 편집 기준선보다 시간적 일관성에서 우수하다.
- 우리 방법은 비교 방법들 중에서 최상위 CLIP 점수를 달성하여 대상 프롬프트와의 정렬이 좋음을 시사한다.
- 다양한 비디오에서 원래 모션과 의미적 배열을 보존하는 편집을 보이는 정성적 결과다.
- 고찰 결과 TokenFlow가 단독 확장 어텐션보다 우수하며 무작위 핵심 프레임이 강건성을 향상시킨다.
- 표 기반의 정량적 결과에서 왜곡 오차, CLIP 유사도, 사용자 선호도에서 명확한 이점을 보인다.]
- table_headers:[
- Warp-err (×10^-3)
- User preference
- CLIP
제안 방법
- Extract diffusion tokens from DDIM-inverted video frames across layers.
- Sample and jointly edit a set of keyframes to induce a shared global appearance via extended-attention across multiple frames.
- Propagate edited tokens to non-keyframes using nearest-neighbor correspondences in the original diffusion feature space.
- Combine keyframe edits with TokenFlow propagation at each denoising step to maintain frame-to-frame consistency.
- Support propagation with any image-editing diffusion method (PnP, Meng et al., Zhang & Agrawala, etc.).
- Evaluate temporal consistency via warp-error and user studies, and fidelity via CLIP similarity.

실험 결과
연구 질문
- RQ1Can diffusion feature space consistency yield more temporally coherent video edits when using a pre-trained image diffusion model?
- RQ2Does joint keyframe editing plus feature-space propagation outperform frame-wise editing baselines in preserving structure and motion?
- RQ3How do diffusion features reflect temporal redundancies in natural videos, and can that be leveraged for better edits?
주요 결과
| Warp-err (×10^-3) | User preference | CLIP | |
|---|---|---|---|
| LDM recon. | 2.0 | - | 0.23 |
| PnP-Diffusion | 11.3 | 94% | 0.33 |
| Text2Video-Zero | 12.5 | 78% | 0.33 |
| Tune-a-Video | 30.0 | 82% | 0.31 |
| Fate-Zero | 6.9 | 71% | 0.32 |
| Gen1 | - | 70% | 0.32 |
| Rerender-a-Video | 1.8 | 71% | 0.32 |
| Ours w joint attention | 5.9 | 90% | 0.33 |
| Ours w/o rand keyframes | 3.7 | - | 0.33 |
| Ours | 3.0 | - | 0.33 |
- TokenFlow achieves higher temporal coherence than baselines, with lower warp-error and strong user preference.
- Ours w joint attention and with randomized keyframes outperform frame-wise editing baselines in temporal consistency.
- Our method attains the highest CLIP score among compared methods, indicating good alignment with target prompts.
- Qualitative results show edits preserving the original motion and semantic layout across diverse videos.
- Ablation shows TokenFlow outperforms extended attention alone and random keyframes improve robustness.
- Table-based quantitative results show clear gains in warp-error, CLIP similarity, and user preference.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.