[논문 리뷰] Flow caching for autoregressive video generation
FlowCache는 자동회귀 비디오 생성에서 청크 단위 캐싱과 KV 캐시 압축을 도입하여 MAGI-1 및 SkyReels-V2에서 품질 저하를 최소화하면서 상당한 속도 향상을 달성합니다.
Autoregressive models, often built on Transformer architectures, represent a powerful paradigm for generating ultra-long videos by synthesizing content in sequential chunks. However, this sequential generation process is notoriously slow. While caching strategies have proven effective for accelerating traditional video diffusion models, existing methods assume uniform denoising across all frames-an assumption that breaks down in autoregressive models where different video chunks exhibit varying similarity patterns at identical timesteps. In this paper, we present FlowCache, the first caching framework specifically designed for autoregressive video generation. Our key insight is that each video chunk should maintain independent caching policies, allowing fine-grained control over which chunks require recomputation at each timestep. We introduce a chunkwise caching strategy that dynamically adapts to the unique denoising characteristics of each chunk, complemented by a joint importance-redundancy optimized KV cache compression mechanism that maintains fixed memory bounds while preserving generation quality. Our method achieves remarkable speedups of 2.38 times on MAGI-1 and 6.7 times on SkyReels-V2, with negligible quality degradation (VBench: 0.87 increase and 0.79 decrease respectively). These results demonstrate that FlowCache successfully unlocks the potential of autoregressive models for real-time, ultra-long video generation-establishing a new benchmark for efficient video synthesis at scale. The code is available at https://github.com/mikeallen39/FlowCache.
연구 동기 및 목표
- 비디오 청크 간 이질적 잡음 제거를 해결하여 자동회귀 비디오 생성을 더 빠르게 만들고자 한다.
- 비디오 청크마다 독립적으로 재계산을 관리하기 위한 청크 단위 캐시 정책을 제안한다.
- 품질 손실 없이 메모리 예산에 맞추기 위한 중요도–중복성 KV 캐시 압축을 제시한다.
- 자동회귀 비디오 생성에서 캐싱 다이내믹스를 이론적·경험적으로 분석한다.
- 대표 모델에서 비디오 품질을 보존하면서 최첨단 속도 향상을 보여준다.
제안 방법
- 연쇄 형식의 각 비디오 청크에 대해 연속 타임스텝 간 상대 L1 거리를 정의하여 재사용 가능성을 측정한다.
- 잡음 제거가 진행됨에 따라 상대 L1 거리가 단조롭게 증가한다는 것을 이론적으로 증명한다(정리 1).
- FlowCache를 제안하여 비디오 청크의 잡음 제거 상태에 따라 독립적인 캐시 정책을 할당한다.
- 다양하고 관련된 이전 KV 항목을 선택하기 위해 중요도와 중복성을 함께 최적화하는 KV 캐시 압축을 구현한다(식 9–12).
- 아블레이션을 통해 청크 단위 재사용 및 KV 압축의 이점을 MAGI-1 및 SkyReels-V2에서 평가한다.
실험 결과
연구 질문
- RQ1독립적이고 청크 단위의 캐시 정책이 자동회귀 비디오 생성에서 품질에 손실을 주지 않으면서 가속화를 개선할 수 있는가?
- RQ2장기 형 비디오에서 메모리 사용과 시간적 일관성을 균형 있게 맞추기 위해 KV 캐시를 어떻게 압축해야 하는가?
- RQ3잡음 제거 경로의 청크 수준 이질성이 캐싱 전략에 어떤 영향을 미치는가?
- RQ4FlowCache의 이론적 인사이트가 서로 다른 자동회귀 비디오 모델에서 실험적 속도 향상으로 이어지는가?
주요 결과
| 모델 | 방법 | PFLOPs ↓ | 속도 향상 ↑ | 지연 시간(s) ↓ | V벤치 ↑ | LPIPS ↓ | SSIM ↑ | PSNR ↑ |
|---|---|---|---|---|---|---|---|---|
| MAGI-1 | Vanilla | 306 | 1× | 2873 | 77.06% | - | - | - |
| MAGI-1 | TeaCache-slow | 294 | 1.12× | 2579 | 77.50% | 0.8160 | 0.1138 | 13.26 |
| MAGI-1 | TeaCache-fast | 225 | 1.44× | 1998 | 70.11% | 0.8160 | 0.1138 | 8.94 |
| MAGI-1 | FlowCache-slow | 161 | 1.86× | 1546 | 78.96% | 0.3160 | 0.6497 | 22.34 |
| MAGI-1 | FlowCache-fast | 140 | 2.38× | 1209 | 77.93% | 0.4311 | 0.5140 | 19.27 |
| SkyReels-V2 | Vanilla | 113 | 1× | 1540 | 83.84% | - | - | - |
| SkyReels-V2 | TeaCache-slow | 58 | 1.89× | 814 | 82.67% | 0.1472 | 0.7501 | 21.96 |
| SkyReels-V2 | TeaCache-fast | 49 | 2.2× | 686 | 80.06% | 0.3063 | 0.6121 | 18.39 |
| SkyReels-V2 | FlowCache-slow | 36 | 5.88× | 262 | 83.12% | 0.1225 | 0.789 | 23.74 |
| SkyReels-V2 | FlowCache-fast | 28 | 6.7× | 230 | 83.05% | 0.1467 | 0.7635 | 22.95 |
- FlowCache는 MAGI-1에서 0.87의 VBench 개선으로 기본 모델 대비 2.38배 속도 향상을 달성한다.
- FlowCache는 SkyReels-V2에서 0.79의 VBench 감소로 6.7배 속도 향상을 달성한다.
- 청크 단위 재사용은 품질 유지 측면에서 TeaCache 스타일의 균일 캐싱보다 우수하다.
- KV 캐시 압축은 품질 저하를 거의 유발하지 않으면서 메모리/계산 부하를 줄인다.
- 모델 전반에 걸쳐 FlowCache는 perceptual 저하를 최소화하면서 상당한 효율성 증가를 달성한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.