[논문 리뷰] Steering Video Diffusion Transformers with Massive Activations
이 논문은 비디오 확산 트랜스포머에서 대규모 활성화(MAs)를 분석하고, 첫 프레임 및 잠재 경계 토큰에서 MA 값을 선택적으로 조정해 비디오 품질과 시간적 일관성을 개선하는 학습 없는 방법 STAS를 제시합니다. 오버헤드는 무시할 수 있을 정도로 작습니다.
Despite rapid progress in video diffusion transformers, how their internal model signals can be leveraged with minimal overhead to enhance video generation quality remains underexplored. In this work, we study the role of Massive Activations (MAs), which are rare, high-magnitude hidden state spikes in video diffusion transformers. We observed that MAs emerge consistently across all visual tokens, with a clear magnitude hierarchy: first-frame tokens exhibit the largest MA magnitudes, latent-frame boundary tokens (the head and tail portions of each temporal chunk in the latent space) show elevated but slightly lower MA magnitudes than the first frame, and interior tokens within each latent frame remain elevated, yet are comparatively moderate in magnitude. This structured pattern suggests that the model implicitly prioritizes token positions aligned with the temporal chunking in the latent space. Based on this observation, we propose Structured Activation Steering (STAS), a training-free self-guidance-like method that steers MA values at first-frame and boundary tokens toward a scaled global maximum reference magnitude. STAS achieves consistent improvements in terms of video quality and temporal coherence across different text-to-video models, while introducing negligible computational overhead.
연구 동기 및 목표
- 비디오 확산 트랜스포머에서 모델별 및 잠재 압축 설정에 걸친 대규모 활성화(MA)를 식별하고 특성화합니다.
- 비디오 생성에서 MA의 크기가 토큰 위치 및 시간 구조와 어떻게 관련되는지 이해합니다.
- MA 구조를 활용하여 비디오 품질과 일관성을 개선하는 학습 없는 활성화 조정 방법을 개발합니다.
- 여러 백본에서 STAS의 적용 가능성과 기존의 학습 없는 방법과의 호환성을 입증합니다.
제안 방법
- WAN 및 CogVideo 백본과 다양한 시간 압축 비율에서 MA 패턴을 체계적으로 분석합니다.
- 구조적으로 중요한 토큰(첫 프레임 및 잠재 경계 토큰)에서 MA 차원을 early denoising 단계 동안 증폭하는 마스킹된 자가 안내 유사 업데이트로 STAS를 정의합니다.
- 현재 레이어의 MA 최대값을 기반으로 한 글로벌 참조 증폭 규칙으로 조정 대상(target)을 명시합니다.
- CFG 위에 STAS를 적용하고 오버헤드가 거의 없는 단일 순전파로 평가합니다.
- 다수의 백본에서 VBench 지표 및 프레임 간 유사성 지표(DINO/CLIP)로 STAS를 평가합니다.
- MA 차원, 대상 토큰, 타임스텝 윈도우, 증폭 규칙의 효과를 구분하기 위한 제거 실험(ablation)을 수행합니다.
![(a) Wan2.1-1.3B [ wan ]](https://ar5iv.labs.arxiv.org/html/2603.17825/assets/figures/wan2.1_b15_t5.png)
실험 결과
연구 질문
- RQ1모델 및 압축 비율 전반에서 비디오 확산 트랜스포머의 대규모 활성화의 구조적 특성은 무엇인가?
- RQ2매개변수를 변경하지 않고도 MA 구조를 활용해 시간적 일관성과 시각적 품질을 개선할 수 있는 학습 없는 활성화 조정 방법이 가능한가?
- RQ3STAS가 다양한 비디오 DiT 백본에서 기존의 학습 없는 가이던스 방법(CFG)과 어떻게 상호 작용하는가?
- RQ4STAS가 크로스-챙크 대비 챙크 내 시간 일관성 및 객체-속성 바인딩에 미치는 영향은?
주요 결과
| 모델 | 방법 | 주체 일관성 | 배경 일관성 | 심미적 품질 | 영상 품질 | 품질 점수 | 의미적 점수 | 총 점수 |
|---|---|---|---|---|---|---|---|---|
| Wan2.1-1.3B | Vanilla | 94.63 | 95.81 | 61.91 | 68.14 | 81.81 | 79.70 | 81.39 |
| Wan2.1-1.3B | +Ours | 95.00 | 95.93 | 62.03 | 68.95 | 82.03 | 80.66 | 81.76 |
| CogVideoX-5B | Vanilla | 93.40 | 95.29 | 59.98 | 64.62 | 79.78 | 77.59 | 79.34 |
| CogVideoX-5B | +Ours | 93.80 | 95.47 | 60.31 | 65.12 | 79.95 | 78.24 | 79.61 |
| Wan2.2-5B | Vanilla | 95.13 | 96.63 | 61.67 | 69.02 | 81.75 | 81.68 | 81.74 |
| Wan2.2-5B | +Ours | 95.37 | 96.70 | 61.72 | 69.39 | 81.82 | 82.35 | 81.93 |
- 비디오 DiT의 MA는 일관된 위치 패턴을 보이며: 첫 프레임 토큰의 활성화가 가장 크고 잠재 프레임 경계는 시간 압축과 정렬된 주기적 스파이크를 보인다.
- 초기 디노이징 단계에서 첫 프레임 및 경계 토큰의 MA 값을 선택적으로 조정해 오버헤드가 거의 없으면서 비디오 품질과 시간적 일관성을 개선합니다.
- STAS는 Wan2.1-1.3B, CogVideoX-5B, Wan2.2-5B 백본에서 품질 및 의미적 지표 모두에서 일관된 이점을 제공합니다.
- CFG와 결합될 때 STAS는 여러 기준선에서 품질 지표와 시간적 안정성을 추가로 향상시킵니다.
- 제자화(ablation) 결과, MA 차원 조정, 첫 프레임 및 경계 토큰 대상화, 최대 기반 증폭 규칙의 사용이 효과에 결정적임을 보여줍니다.
![(b) Wan2.2-5B [ wan ]](https://ar5iv.labs.arxiv.org/html/2603.17825/assets/figures/wan2.2_b15_t5.png)
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.