[논문 리뷰] S2DiT: Sandwich Diffusion Transformer for Mobile Streaming Video Generation
S2DiT는 LinConv 하이브리드 어텐션과 Stride Self-Attention을 교차 배치하는 모바일 친화적 Streaming Sandwich Diffusion Transformer를 소개하고, 2-in-1 증류 파이프라인을 더해 아이폰에서도 서버급 품질 벤치마크와 경쟁력 있는 해상도 고정도 온-디바이스 스트리밍 비디오 생성을 10FPS 이상으로 가능하게 한다.
Diffusion Transformers (DiTs) have recently improved video generation quality. However, their heavy computational cost makes real-time or on-device generation infeasible. In this work, we introduce S2DiT, a Streaming Sandwich Diffusion Transformer designed for efficient, high-fidelity, and streaming video generation on mobile hardware. S2DiT generates more tokens but maintains efficiency with novel efficient attentions: a mixture of LinConv Hybrid Attention (LCHA) and Stride Self-Attention (SSA). Based on this, we uncover the sandwich design via a budget-aware dynamic programming search, achieving superior quality and efficiency. We further propose a 2-in-1 distillation framework that transfers the capacity of large teacher models (e.g., Wan 2.2-14B) to the compact few-step sandwich model. Together, S2DiT achieves quality on par with state-of-the-art server video models, while streaming at over 10 FPS on an iPhone.
연구 동기 및 목표
- 모바일 기기에서 고품질 비디오 생성을 촉진하면서 실시간 스트리밍 제약을 해결한다.
- 모바일 자원 한계 하에서 충실도와 대기시간의 균형을 맞추는 효율적인 샌드위치 아키텍처(LCHA + SSA)를 제안한다.
- 대기시간/메모리 예산에 따라 어텐션 블록을 최적 할당하기 위한 동적 프로그래밍 탐색을 개발한다.
- 십억 매개변수 교사로부터 압축된 모바일 백본으로 지식을 전달하는 2-in-1 증류 프레임워크를 도입한다.
- 자체 강제 및 증류를 통해 시퀀스 간 일관성을 유지하며 스트리밍 자동회귀 비디오 생성을 가능하게 한다.
제안 방법
- LinConv 하이브리드 어텐션(LCHA)과 Stride Self-Attention(SSA)을 교차 배치하여 선형 또는 감소된 복잡도 어텐션을 달성하는 샌드위치 디퓨전 트랜스포머를 설계한다.
- 대기시간 및 메모리 제약 하에서 LCHA와 SSA 블록을 할당하기 위한 예산 인식 동적 프로그래밍 탐색을 사용한다.
- 사전 계산된 교사 출력으로 감독되는 대형 교사(Wan2.2-14B)를 활용해 소형 학생(1.8B)을 감독하는 오프라인 캐시된 지식 증류 파이프라인을 채택한다.
- few-step의 스트리밍 자동회귀 생성을 위한 Distribution-Matching Distillation(DMD)과 자체 강제를 적용한다.
- 모바일 기기에서 메모리를 관리하기 위해 창(KV-cache)을 사용하는 인과적, 스트리밍 추론을 도입한다.

실험 결과
연구 질문
- RQ1모바일 하드웨어에서 고충실도를 희생하지 않고 실시간 스트리밍 비디오 생성을 충분히 효율적으로 만들 수 있는지?
- RQ2고해상도 지역 모델링(LCHA)과 저해상도 글로벌 컨텍스트(SSA)의 교차가 모바일 제약하에서 품질을 개선하는지?
- RQ3오프라인 캐시 증류를 통해 대형 교사 모델의 지식을 소형 모바일 백본으로 이전하여 높은 시각적 충실도를 유지할 수 있는지?
- RQ4자체 강제와 분포 매칭 증류가 디바이스 상에서 정확한 자동 회귀 스트리밍 비디오 생성을 가능하게 하는지?
- RQ5동적 프로그래밍 기반 아키텍처 검색으로 얻어지는 어텐션 블록의 대기시간-충실도 트레이드오프는 무엇인지?
주요 결과
| 모델 | 매개변수(B) | 총합 | 품질 | 의미론적 | 깜박임 | 심미성 | 이미징 | 객체 분류 | 장면 | 일관성 |
|---|---|---|---|---|---|---|---|---|---|---|
| Wan2.1 | 14 | 84.70 | 85.23 | 75.65 | 99.55 | 65.46 | 67.01 | 88.81 | 41.96 | 25.50 |
| LTX-Video | 1.8 | 80.00 | 82.30 | 70.79 | 99.34 | 59.81 | 60.28 | 83.45 | 51.07 | 25.19 |
| Open-Sora-2.0 | 11 | 84.34 | 85.40 | 80.12 | 99.40 | 64.39 | 65.66 | 94.50 | 52.71 | 27.50 |
| Wan2.1 | 1.3 | 83.31 | 85.23 | 75.65 | 99.55 | 65.46 | ? | 88.81 | 41.96 | 25.50 |
| S2DiT-Pretrained | 1.8 | 82.40 | 84.41 | 74.46 | 98.52 | 64.97 | 68.49 | 91.74 | 44.35 | 24.94 |
| S2DiT-KD | 1.8 | 83.62 | 86.13 | 73.58 | 99.56 | 65.26 | 69.05 | 91.76 | 48.37 | 25.35 |
| S2DiT-AR | 1.8 | 83.26 | 85.63 | 73.79 | 98.20 | 65.64 | 70.57 | 89.49 | 49.19 | 24.75 |
- S2DiT는 모바일에서 약 11 FPS의 온-디바이스 스트리밍 비디오 생성을 서버 모델과 유사한 품질로 달성한다.
- LCHA와 SSA를 갖춘 샌드위치 아키텍처는 모바일 예산에서 단일 어텐션 기반 및 시계 모양 디자인보다 우수한 성능을 보인다.
- Wan2.2-14B로부터의 오프라인 캐시 지식 증류와 자체 강제로Few-step 샘플링으로 높은 충실도를 달성한다.
- 오토-회귀 스트리밍 변형(AR)은 온-디바이스 스트리밍에서 샘플링 스텝 수를 줄이면서 경쟁력 있는 충실도를 제공한다.
- S2DiT-KD 및 S2DiT-AR은 S2DiT-Pretrained보다 우수하여 2-in-1 증류 접근법의 효과를 검증한다.
![Figure 3 : Visual comparisons. For Wan-1.3B [ 39 ] and LTX-2B [ 10 ] , videos are generated using their official default inference resolutions with the same prompts.](https://ar5iv.labs.arxiv.org/html/2601.12719/assets/x3.png)
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.