Skip to main content
QUICK REVIEW

[论文解读] YODA: Yet Another One-step Diffusion-based Video Compressor

Xingchen Li, Junzhe Zhang|arXiv (Cornell University)|Jan 3, 2026
Generative Adversarial Networks and Image Synthesis被引用 0
一句话总结

YODA 提出一种基于单步扩散的视频编解码器,利用时序感知自编码器、条件潜变量编码器和线性 Diffusion Transformer 实现高效的一步去噪,在感知质量方面具有优势。

ABSTRACT

While one-step diffusion models have recently excelled in perceptual image compression, their application to video remains limited. Prior efforts typically rely on pretrained 2D autoencoders that generate per-frame latent representations independently, thereby neglecting temporal dependencies. We present YODA--Yet Another One-step Diffusion-based Video Compressor--which embeds multiscale features from temporal references for both latent generation and latent coding to better exploit spatial-temporal correlations for more compact representation, and employs a linear Diffusion Transformer (DiT) for efficient one-step denoising. YODA achieves state-of-the-art perceptual performance, consistently outperforming traditional and deep-learning baselines on LPIPS, DISTS, FID, and KID. Source code will be publicly available at https://github.com/NJUVISION/YODA.

研究动机与目标

  • 通过利用时序相关性来推动神经视频压缩的感知质量提升。
  • 开发一个可训练的时序感知自编码器,以生成具有多尺度时序条件的紧凑潜在。
  • 将条件潜变量编码器与熵编码建模结合,以在潜在空间中利用时空上下文。
  • 用轻量级线性 Diffusion Transformer 取代传统的 U-Net 去噪,实现高效的一步去噪。
  • 在比特率约束下实现 TA-AE、CLC、DiT 的端到端训练,以获得更好的速率-质量权衡。

提出的方法

  • Temporal-Aware AutoEncoder (TA-AE) 将参考帧的多尺度时序特征注入编码器和解码器,生成更紧凑的潜在表示。
  • Conditional Latent Coder (CLC) 扩展潜在通道至 256,以获得更丰富的时序上下文,并采用两阶段熵模型进行潜在编码。
  • One-Step Denoising with Linear Diffusion Transformer (DiT) 对压缩潜在进行单次一致性去噪。
  • Three-stage training: Stage I 通过复合失真损失加对抗损失对 TA-AE 进行预训练;Stage II 联合训练 CLC 和 DiT,并进行 LoRA 微调;Stage III 在比特率约束下对所有组件进行端到端微调。

实验结果

研究问题

  • RQ1在可训练 TA-AE 中引入多尺度时序条件是否能提升潜在紧凑性和感知质量,相对于逐帧编码器?
  • RQ2带扩展通道和时序参考的 Conditional Latent Coder 是否能提升潜在的熵编码建模?
  • RQ3Linear Diffusion Transformer 是否能够以竞争的感知质量和更低计算成本实现有效的一步去噪,相比 U-Net 基线?
  • RQ4端到端三阶段训练对标准数据集上的速率-质量表现有何影响?
  • RQ5YODA 相较于传统编解码器和基于扩散/视频学习的基线在感知指标上有何表现?

主要发现

  • YODA 在 UVG、HEVC Class B 和 MCL-JCV 数据集上,在感知指标(LPIPS、DISTS、FID、KID)均优于基线。
  • 相对于 DiffVC、DiffVC-OSD、PLVC、GLC-Video、DCVC-RT 及 HEVC/VVC 基线,在感知指标上显著降低 BD-Rate。
  • 具有五尺度时序条件的 TA-AE 在 LPIPS/DISTS 上取得最佳提升,超过三尺度后收益递减。
  • CLC 的 256 通道潜在表现出显著的性能提升;更大的通道数回报递减且增加延迟。
  • 在 DiT 之前进行 Pre-DiT 时序条件比 Post-DiT 条件在保留时序信息方面更有效。
  • 端到端训练结合速率正则化和对抗损失,提升感知真实感和压缩效率。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。