QUICK REVIEW

[논문 리뷰] S2DiT: Sandwich Diffusion Transformer for Mobile Streaming Video Generation

Lin Zhao, Yushu Wu|arXiv (Cornell University)|2026. 01. 19.

Video Coding and Compression Technologies인용 수 0

한 줄 요약

S2DiT는 LinConv 하이브리드 어텐션과 Stride Self-Attention을 교차 배치하는 모바일 친화적 Streaming Sandwich Diffusion Transformer를 소개하고, 2-in-1 증류 파이프라인을 더해 아이폰에서도 서버급 품질 벤치마크와 경쟁력 있는 해상도 고정도 온-디바이스 스트리밍 비디오 생성을 10FPS 이상으로 가능하게 한다.

ABSTRACT

Diffusion Transformers (DiTs) have recently improved video generation quality. However, their heavy computational cost makes real-time or on-device generation infeasible. In this work, we introduce S2DiT, a Streaming Sandwich Diffusion Transformer designed for efficient, high-fidelity, and streaming video generation on mobile hardware. S2DiT generates more tokens but maintains efficiency with novel efficient attentions: a mixture of LinConv Hybrid Attention (LCHA) and Stride Self-Attention (SSA). Based on this, we uncover the sandwich design via a budget-aware dynamic programming search, achieving superior quality and efficiency. We further propose a 2-in-1 distillation framework that transfers the capacity of large teacher models (e.g., Wan 2.2-14B) to the compact few-step sandwich model. Together, S2DiT achieves quality on par with state-of-the-art server video models, while streaming at over 10 FPS on an iPhone.

연구 동기 및 목표

모바일 기기에서 고품질 비디오 생성을 촉진하면서 실시간 스트리밍 제약을 해결한다.
모바일 자원 한계 하에서 충실도와 대기시간의 균형을 맞추는 효율적인 샌드위치 아키텍처(LCHA + SSA)를 제안한다.
대기시간/메모리 예산에 따라 어텐션 블록을 최적 할당하기 위한 동적 프로그래밍 탐색을 개발한다.
십억 매개변수 교사로부터 압축된 모바일 백본으로 지식을 전달하는 2-in-1 증류 프레임워크를 도입한다.
자체 강제 및 증류를 통해 시퀀스 간 일관성을 유지하며 스트리밍 자동회귀 비디오 생성을 가능하게 한다.

제안 방법

LinConv 하이브리드 어텐션(LCHA)과 Stride Self-Attention(SSA)을 교차 배치하여 선형 또는 감소된 복잡도 어텐션을 달성하는 샌드위치 디퓨전 트랜스포머를 설계한다.
대기시간 및 메모리 제약 하에서 LCHA와 SSA 블록을 할당하기 위한 예산 인식 동적 프로그래밍 탐색을 사용한다.
사전 계산된 교사 출력으로 감독되는 대형 교사(Wan2.2-14B)를 활용해 소형 학생(1.8B)을 감독하는 오프라인 캐시된 지식 증류 파이프라인을 채택한다.
few-step의 스트리밍 자동회귀 생성을 위한 Distribution-Matching Distillation(DMD)과 자체 강제를 적용한다.
모바일 기기에서 메모리를 관리하기 위해 창(KV-cache)을 사용하는 인과적, 스트리밍 추론을 도입한다.

Figure 2 : Illustration of the framework for obtaining S 2 DiT. LCHA integrates a linear attention path with a local convolution path at high resolution, while SSA compresses the spatial representation for efficient global context modeling. The final S 2 DiT is derived by combining these two efficie

실험 결과

연구 질문

RQ1모바일 하드웨어에서 고충실도를 희생하지 않고 실시간 스트리밍 비디오 생성을 충분히 효율적으로 만들 수 있는지?
RQ2고해상도 지역 모델링(LCHA)과 저해상도 글로벌 컨텍스트(SSA)의 교차가 모바일 제약하에서 품질을 개선하는지?
RQ3오프라인 캐시 증류를 통해 대형 교사 모델의 지식을 소형 모바일 백본으로 이전하여 높은 시각적 충실도를 유지할 수 있는지?
RQ4자체 강제와 분포 매칭 증류가 디바이스 상에서 정확한 자동 회귀 스트리밍 비디오 생성을 가능하게 하는지?
RQ5동적 프로그래밍 기반 아키텍처 검색으로 얻어지는 어텐션 블록의 대기시간-충실도 트레이드오프는 무엇인지?

주요 결과

모델	매개변수(B)	총합	품질	의미론적	깜박임	심미성	이미징	객체 분류	장면	일관성
Wan2.1	14	84.70	85.23	75.65	99.55	65.46	67.01	88.81	41.96	25.50
LTX-Video	1.8	80.00	82.30	70.79	99.34	59.81	60.28	83.45	51.07	25.19
Open-Sora-2.0	11	84.34	85.40	80.12	99.40	64.39	65.66	94.50	52.71	27.50
Wan2.1	1.3	83.31	85.23	75.65	99.55	65.46	?	88.81	41.96	25.50
S2DiT-Pretrained	1.8	82.40	84.41	74.46	98.52	64.97	68.49	91.74	44.35	24.94
S2DiT-KD	1.8	83.62	86.13	73.58	99.56	65.26	69.05	91.76	48.37	25.35
S2DiT-AR	1.8	83.26	85.63	73.79	98.20	65.64	70.57	89.49	49.19	24.75

S2DiT는 모바일에서 약 11 FPS의 온-디바이스 스트리밍 비디오 생성을 서버 모델과 유사한 품질로 달성한다.
LCHA와 SSA를 갖춘 샌드위치 아키텍처는 모바일 예산에서 단일 어텐션 기반 및 시계 모양 디자인보다 우수한 성능을 보인다.
Wan2.2-14B로부터의 오프라인 캐시 지식 증류와 자체 강제로Few-step 샘플링으로 높은 충실도를 달성한다.
오토-회귀 스트리밍 변형(AR)은 온-디바이스 스트리밍에서 샘플링 스텝 수를 줄이면서 경쟁력 있는 충실도를 제공한다.
S2DiT-KD 및 S2DiT-AR은 S2DiT-Pretrained보다 우수하여 2-in-1 증류 접근법의 효과를 검증한다.

Figure 3 : Visual comparisons. For Wan-1.3B [ 39 ] and LTX-2B [ 10 ] , videos are generated using their official default inference resolutions with the same prompts.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.