Skip to main content
QUICK REVIEW

[논문 리뷰] S2DiT: Sandwich Diffusion Transformer for Mobile Streaming Video Generation

Lin Zhao, Yushu Wu|arXiv (Cornell University)|2026. 01. 19.
Video Coding and Compression Technologies인용 수 0
한 줄 요약

S2DiT는 LinConv 하이브리드 어텐션과 Stride Self-Attention을 교차 배치하는 모바일 친화적 Streaming Sandwich Diffusion Transformer를 소개하고, 2-in-1 증류 파이프라인을 더해 아이폰에서도 서버급 품질 벤치마크와 경쟁력 있는 해상도 고정도 온-디바이스 스트리밍 비디오 생성을 10FPS 이상으로 가능하게 한다.

ABSTRACT

Diffusion Transformers (DiTs) have recently improved video generation quality. However, their heavy computational cost makes real-time or on-device generation infeasible. In this work, we introduce S2DiT, a Streaming Sandwich Diffusion Transformer designed for efficient, high-fidelity, and streaming video generation on mobile hardware. S2DiT generates more tokens but maintains efficiency with novel efficient attentions: a mixture of LinConv Hybrid Attention (LCHA) and Stride Self-Attention (SSA). Based on this, we uncover the sandwich design via a budget-aware dynamic programming search, achieving superior quality and efficiency. We further propose a 2-in-1 distillation framework that transfers the capacity of large teacher models (e.g., Wan 2.2-14B) to the compact few-step sandwich model. Together, S2DiT achieves quality on par with state-of-the-art server video models, while streaming at over 10 FPS on an iPhone.

연구 동기 및 목표

  • 모바일 기기에서 고품질 비디오 생성을 촉진하면서 실시간 스트리밍 제약을 해결한다.
  • 모바일 자원 한계 하에서 충실도와 대기시간의 균형을 맞추는 효율적인 샌드위치 아키텍처(LCHA + SSA)를 제안한다.
  • 대기시간/메모리 예산에 따라 어텐션 블록을 최적 할당하기 위한 동적 프로그래밍 탐색을 개발한다.
  • 십억 매개변수 교사로부터 압축된 모바일 백본으로 지식을 전달하는 2-in-1 증류 프레임워크를 도입한다.
  • 자체 강제 및 증류를 통해 시퀀스 간 일관성을 유지하며 스트리밍 자동회귀 비디오 생성을 가능하게 한다.

제안 방법

  • LinConv 하이브리드 어텐션(LCHA)과 Stride Self-Attention(SSA)을 교차 배치하여 선형 또는 감소된 복잡도 어텐션을 달성하는 샌드위치 디퓨전 트랜스포머를 설계한다.
  • 대기시간 및 메모리 제약 하에서 LCHA와 SSA 블록을 할당하기 위한 예산 인식 동적 프로그래밍 탐색을 사용한다.
  • 사전 계산된 교사 출력으로 감독되는 대형 교사(Wan2.2-14B)를 활용해 소형 학생(1.8B)을 감독하는 오프라인 캐시된 지식 증류 파이프라인을 채택한다.
  • few-step의 스트리밍 자동회귀 생성을 위한 Distribution-Matching Distillation(DMD)과 자체 강제를 적용한다.
  • 모바일 기기에서 메모리를 관리하기 위해 창(KV-cache)을 사용하는 인과적, 스트리밍 추론을 도입한다.
Figure 2 : Illustration of the framework for obtaining S 2 DiT. LCHA integrates a linear attention path with a local convolution path at high resolution, while SSA compresses the spatial representation for efficient global context modeling. The final S 2 DiT is derived by combining these two efficie
Figure 2 : Illustration of the framework for obtaining S 2 DiT. LCHA integrates a linear attention path with a local convolution path at high resolution, while SSA compresses the spatial representation for efficient global context modeling. The final S 2 DiT is derived by combining these two efficie

실험 결과

연구 질문

  • RQ1모바일 하드웨어에서 고충실도를 희생하지 않고 실시간 스트리밍 비디오 생성을 충분히 효율적으로 만들 수 있는지?
  • RQ2고해상도 지역 모델링(LCHA)과 저해상도 글로벌 컨텍스트(SSA)의 교차가 모바일 제약하에서 품질을 개선하는지?
  • RQ3오프라인 캐시 증류를 통해 대형 교사 모델의 지식을 소형 모바일 백본으로 이전하여 높은 시각적 충실도를 유지할 수 있는지?
  • RQ4자체 강제와 분포 매칭 증류가 디바이스 상에서 정확한 자동 회귀 스트리밍 비디오 생성을 가능하게 하는지?
  • RQ5동적 프로그래밍 기반 아키텍처 검색으로 얻어지는 어텐션 블록의 대기시간-충실도 트레이드오프는 무엇인지?

주요 결과

모델매개변수(B)총합품질의미론적깜박임심미성이미징객체 분류장면일관성
Wan2.11484.7085.2375.6599.5565.4667.0188.8141.9625.50
LTX-Video1.880.0082.3070.7999.3459.8160.2883.4551.0725.19
Open-Sora-2.01184.3485.4080.1299.4064.3965.6694.5052.7127.50
Wan2.11.383.3185.2375.6599.5565.46?88.8141.9625.50
S2DiT-Pretrained1.882.4084.4174.4698.5264.9768.4991.7444.3524.94
S2DiT-KD1.883.6286.1373.5899.5665.2669.0591.7648.3725.35
S2DiT-AR1.883.2685.6373.7998.2065.6470.5789.4949.1924.75
  • S2DiT는 모바일에서 약 11 FPS의 온-디바이스 스트리밍 비디오 생성을 서버 모델과 유사한 품질로 달성한다.
  • LCHA와 SSA를 갖춘 샌드위치 아키텍처는 모바일 예산에서 단일 어텐션 기반 및 시계 모양 디자인보다 우수한 성능을 보인다.
  • Wan2.2-14B로부터의 오프라인 캐시 지식 증류와 자체 강제로Few-step 샘플링으로 높은 충실도를 달성한다.
  • 오토-회귀 스트리밍 변형(AR)은 온-디바이스 스트리밍에서 샘플링 스텝 수를 줄이면서 경쟁력 있는 충실도를 제공한다.
  • S2DiT-KD 및 S2DiT-AR은 S2DiT-Pretrained보다 우수하여 2-in-1 증류 접근법의 효과를 검증한다.
Figure 3 : Visual comparisons. For Wan-1.3B [ 39 ] and LTX-2B [ 10 ] , videos are generated using their official default inference resolutions with the same prompts.
Figure 3 : Visual comparisons. For Wan-1.3B [ 39 ] and LTX-2B [ 10 ] , videos are generated using their official default inference resolutions with the same prompts.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.