Skip to main content
QUICK REVIEW

[论文解读] S2DiT: Sandwich Diffusion Transformer for Mobile Streaming Video Generation

Lin Zhao, Yushu Wu|arXiv (Cornell University)|Jan 19, 2026
Video Coding and Compression Technologies被引用 0
一句话总结

S2DiT 介绍了一种适合移动端的流式三明治扩散变换器,它将 LinConv Hybrid Attention 与 Stride Self-Attention 交错使用,并引入一个 2-in-1 蒸馏管道,在 iPhone 上实现超过 10 FPS 的高保真、设备端流式视频生成,并在服务器端基准中具有竞争力。

ABSTRACT

Diffusion Transformers (DiTs) have recently improved video generation quality. However, their heavy computational cost makes real-time or on-device generation infeasible. In this work, we introduce S2DiT, a Streaming Sandwich Diffusion Transformer designed for efficient, high-fidelity, and streaming video generation on mobile hardware. S2DiT generates more tokens but maintains efficiency with novel efficient attentions: a mixture of LinConv Hybrid Attention (LCHA) and Stride Self-Attention (SSA). Based on this, we uncover the sandwich design via a budget-aware dynamic programming search, achieving superior quality and efficiency. We further propose a 2-in-1 distillation framework that transfers the capacity of large teacher models (e.g., Wan 2.2-14B) to the compact few-step sandwich model. Together, S2DiT achieves quality on par with state-of-the-art server video models, while streaming at over 10 FPS on an iPhone.

研究动机与目标

  • 在移动设备上推动高质量视频生成,同时应对实时流式约束。
  • 提出一种高效的三明治架构(LCHA + SSA),在移动资源限制下平衡保真度与延迟。
  • 开发一种动态规划搜索,用以在延迟/内存预算下最优分配注意力块。
  • 引入 2-in-1 蒸馏框架,将亿参数教师的知识传递给紧凑的移动骨干网。
  • 通过自强学习和蒸馏实现流式、自回归视频生成,以维持时间一致性。

提出的方法

  • 设计一个将 LinConv Hybrid Attention (LCHA) 与 Stride Self-Attention (SSA) 交错的三明治扩散变换器,以实现线性或复杂度降低的注意力。
  • 使用具预算感知的动态规划搜索,在延迟和内存约束下分配 LCHA 与 SSA 块。
  • 采用离线缓存的知识蒸馏管线,利用大型教师(Wan2.2-14B)监督紧凑学生(1.8B),并具备预计算的教师输出。
  • 应用分布匹配蒸馏(DMD)和自强学习,以较少步骤实现流式自回归生成。
  • 结合因果、带窗口的KV缓存的推理,以在移动设备上管理内存。
Figure 2 : Illustration of the framework for obtaining S 2 DiT. LCHA integrates a linear attention path with a local convolution path at high resolution, while SSA compresses the spatial representation for efficient global context modeling. The final S 2 DiT is derived by combining these two efficie
Figure 2 : Illustration of the framework for obtaining S 2 DiT. LCHA integrates a linear attention path with a local convolution path at high resolution, while SSA compresses the spatial representation for efficient global context modeling. The final S 2 DiT is derived by combining these two efficie

实验结果

研究问题

  • RQ1是否可以在不牺牲保真度的前提下,使扩散变换器在移动硬件上实现实时流式视频生成?
  • RQ2在移动约束下,将高分辨率局部建模(LCHA)与低分辨率全局上下文(SSA)交错,是否能提升质量?
  • RQ3是否可以通过离线缓存蒸馏,将大型教师模型的知识转移到小型移动骨干网,以维持高视觉保真度?
  • RQ4自强学习和分布匹配蒸馏是否使在设备上的自回归流式视频生成成为可能?
  • RQ5使用动态规划驱动的注意力块架构搜索,在延迟与保真度之间能达到何种权衡?

主要发现

  • S2DiT 在移动端实现了约 11 FPS 的流式视频生成,质量与服务器模型相当。
  • 带有 LCHA 与 SSA 的三明治架构在移动预算下优于单一注意力基线以及沙漏式设计。
  • Wan2.2-14B 的离线缓存知识蒸馏结合自强学习,在较少采样步骤下实现高保真。
  • 自回归流式变体(AR)在设备端以较少采样步骤实现具有竞争力的保真度的生成。
  • S2DiT-KD 与 S2DiT-AR 优于 S2DiT-Pretrained,验证了 2-in-1 蒸馏方法。
Figure 3 : Visual comparisons. For Wan-1.3B [ 39 ] and LTX-2B [ 10 ] , videos are generated using their official default inference resolutions with the same prompts.
Figure 3 : Visual comparisons. For Wan-1.3B [ 39 ] and LTX-2B [ 10 ] , videos are generated using their official default inference resolutions with the same prompts.

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。